📰 주요 요약

Anthropic이 산하 최강 AI 모델인 Claude Fable 5와 Mythos 5의 공개 접근 권한을 재개한다고 발표했습니다. 두 모델은 6월 12일부터 미국 정부의 수출 규제를 이유로 강제 내려졌으며, 아마존 연구원들이 Fable 5의 안전 가드레일을 우회하는 방법을 발견해 모델이 여러 소프트웨어 취약점을 식별하고 익스플로잇 코드를 생성할 수 있게 된 것이 원인이었습니다. 미국 정부는 수요일에 공식적으로 제한을 해제했습니다.

Anthropic은 재가동 버전에 새로운 분류기(classifier)를 탑재하여 보다 광범위한 사이버 보안 관련 명령을 식별하고 차단하는 데 특화했다고 밝혔습니다. 상무부 장관 하워드 루트닉은 정부가 Fable 5에 대한 검토 및 승인 절차를 완료했음을 확인하며, 이번 조치가 “AI 분야에서 미국의 리더십을 공고히 하기 위한 것"이라고 강조했습니다.

이번 사건은 동시에 Anthropic이 “Project Glasswing” 프레임워크 아래 Amazon, Microsoft, Google 등 파트너들과 함께 AI 탈옥 심각도 평가를 위한 공통 기준 마련, 사전 출시 모델 테스트 메커니즘, 탈옥 정보 공유 채널 및 공동 연구 자원 구축을 가속화하는 계기가 됐습니다. 주목할 점은, 저명한 AI 연구원들이 Fable 5 출시 후 48시간 이내에 탈옥을 완료했다고 공개적으로 밝혔다는 것으로, 가드레일 강화가 여전히 지속적인 도전에 직면해 있음을 보여줍니다.


💬 JudyAI Lab 관점

Anthropic 산하 최상위 모델 Fable 5와 Mythos 5는 연구원들에 의해 안전 가드레일이 우회되면서 미국 정부에 의해 3주간 강제 내려진 끝에 이번 주 재가동됐습니다. 모델 보안 취약점이 직접 정책 규제를 촉발한 것은 최근 보기 드문 사례입니다.

이번 사건은 AI 안전 가드레일이 배포 시 일회성으로 설정하고 끝나는 것이 아니라 지속적인 공방임을 보여줍니다. 자원이 가장 풍부한 회사조차 모델 출시 후 48시간 이내에 탈옥을 당하는 현실에 직면합니다. Anthropic은 이번에 새로운 분류기를 탑재해 사이버 보안 관련 명령을 보다 세밀하게 식별하도록 했지만, 커뮤니티 연구원들은 이미 그 지속 가능성에 의문을 제기하고 있습니다. 더 주목할 부분은 “Project Glasswing"이 추진하는 기업 간 협업입니다. 탈옥 심각도 공통 기준 제정, 사전 출시 테스트 및 정보 공유 메커니즘 구축은 업계가 각자도생의 보안 평가 방식에서 집단 방어 체계로 전환하려는 시도를 나타냅니다.

이 사례는 응용 계층에서 제품을 구축할 때 보안 책임을 전적으로 기반 모델에 외주화할 수 없다는 점을 다시금 상기시켜 줍니다. 자체적인 입력 필터링과 출력 검토 메커니즘을 점검하는 것이 지금 당장 실천할 수 있는 한 걸음입니다.


📅 원문 정보


🔗 더 읽기