AI 인사이트

AI 에이전트에게 권한을 얼마나 줄 것인가 — Anthropic Mythos가 던진 진짜 질문

seunghyeonlab 2026. 5. 18. 23:02

hero

Anthropic의 비공개 모델 Mythos가 Apple 소프트웨어의 보안 취약점을 탐지했다는 소식이 전해졌다. 그런데 이 뉴스에서 진짜 봐야 할 건 "얼마나 똑똑한 모델인가"가 아니다. 왜 공개하지 않는지, 그리고 우리가 지금 쓰는 AI 에이전트에게 얼마나 많은 권한을 열어두고 있는지다. Claude Code나 사내 자동화 에이전트를 운영 중인 팀이라면 남의 일이 아니다.

Mythos 사례가 던지는 질문 흐름


Mythos가 뭔지 모르는 사람을 위해

Claude를 매일 쓰는 사람도 Mythos는 낯설다. 이건 Anthropic이 일반에 공개하지 않은 Claude 계열 모델이다. 글쓰기 보조나 코딩 페어 프로그래밍용이 아니라, 보안 취약점 탐지처럼 민감도가 높은 작업에 투입되는 내부 연구용 모델에 가깝다.

이번에 Apple 소프트웨어의 취약점을 사람 없이 탐지해냈다는 게 알려졌고, 업계 반응은 두 갈래였다.

  • "대단하다, 모델 성능이 이 수준까지 왔구나"
  • "그래서 왜 공개 안 하는 건데?"

두 번째 질문이 핵심이다.


왜 공개하지 않는가 — 성능이 아닌 권한의 문제

성능이 좋아진다고 모든 사람에게 그 능력을 열어줄 수는 없다. 자동차 엔진 출력이 올라갔다고 도로 위 모든 차에 레이싱 서킷 진입권을 주지는 않는 것처럼.

AI 모델도 똑같다. 취약점을 발견하는 능력은 방어에도 쓰이지만 공격에도 쓰인다. 모델이 강해질수록 "누가, 어떤 조건에서, 어디까지 쓰게 할 것인가"라는 질문이 성능 지표보다 더 중요해진다.

Anthropic이 Mythos를 비공개로 유지하는 이유가 바로 여기 있다. 모델 점수가 낮아서가 아니라 권한 경계를 신중하게 가져가야 하는 능력이기 때문이다.

모델 능력과 오용 가능성의 관계


Claude Code 팀에게 직접 닿는 이야기

Claude Code, Cursor, 또는 사내 자동화 에이전트를 팀에서 운영 중이라면 이 뉴스는 추상적인 AI 윤리 얘기가 아니다.

지금 당장 팀 내 에이전트에게 이런 권한이 열려 있지는 않은지 확인해볼 필요가 있다.

권한 종류 일반적인 설정 리스크 수준
저장소 읽기 전체 허용 중간
터미널 명령 실행 제한 없음 높음
외부 API 호출 자동 허용 높음
보안 스캔 결과 자동 이슈화 사람 검토 없음 중간~높음

취약점 탐지, 코드 수정, 배포 자동화. 이 세 가지는 모두 "모델 능력"과 "도구 권한"이 붙는 순간 리스크가 곱으로 커지는 영역이다.

에이전트 권한 설계 레이어


실제로 점검해야 할 세 가지

이 뉴스를 읽고 나서 바로 팀에서 확인할 수 있는 것들이 있다.

첫째, 에이전트가 볼 수 있는 파일 범위

Claude Code 같은 도구에서 프로젝트 루트 전체를 열어두는 경우가 많다. .env 파일, 시크릿 키 보관 경로, 인프라 설정 파일이 여기 포함되면 안 된다.

# .claude/settings.json 예시 — 접근 허용 경로 명시
{
  "allowedPaths": ["./src", "./tests", "./docs"],
  "blockedPaths": [".env", "./infra", "./secrets"]
}

둘째, 실행 가능한 명령 범위

터미널 실행을 열어뒀다면 어떤 명령까지 자동 실행이 허용되는지 명시해야 한다.

# 허용: 읽기, 빌드, 테스트
npm run test
git status
grep -r "TODO" ./src

# 차단: 배포, 인프라 조작, 크리덴셜 접근
kubectl apply -f
aws s3 cp
cat ~/.ssh/id_rsa

셋째, 실패했을 때 사람이 끼어드는 지점

자동화의 최대 약점은 이상 동작을 스스로 감지하지 못할 때다. 에이전트가 예상치 못한 파일을 수정하거나, 처음 보는 명령을 실행하려 할 때 무조건 사람에게 확인을 받는 구조가 있어야 한다.

# 에이전트 감시 규칙 예시
on_unexpected_file_write:
  action: pause
  notify: slack#security-alerts

on_new_command_pattern:
  action: require_human_approval
  timeout: 300s

사람 개입 트리거 흐름


마무리

Mythos 뉴스는 새 모델 자랑이 아니다. AI 자동화를 어디까지 믿고 열어둘지 다시 점검하라는 신호에 가깝다.

성능이 올라갈수록 권한 설계가 더 중요해진다. 오늘 팀 에이전트 설정을 열어보고 파일 접근 범위, 명령 실행 허용 목록, 사람이 끼어드는 조건, 이 세 가지만 확인해도 충분한 첫 걸음이다.

다음 글에서는 Claude Code의 권한 설정 파일을 실제로 어떻게 구성하는지, 팀 운영 사례와 함께 다룰 예정이다.


🐦 X에서 더 빠르게: @baegseungh7061
📚 이 시리즈 더 보기: AI 인사이트
💌 새 글 알림: X 팔로우 또는 블로그 RSS 구독