📰 핵심 요약

Anthropic이 최신 출시한 Fable 5 모델은 공개 이후 거센 비판에 직면했으며, 핵심 논란은 과도하게 엄격한 안전 가드레일 설계입니다. 사용자가 생화학 무기나 사이버 보안 등 민감한 주제를 질문할 경우, 모델은 경고 알림을 반환할 뿐 아니라 구버전의 성능이 낮은 모델로 자동 다운그레이드하여 대화를 이어갑니다. 이는 AI 업계 최초로 민감한 쿼리 처리에 ‘다운그레이드 라우팅’ 방식을 도입한 사례입니다.

프린스턴 대학교 AI 연구원 Sayash Kapoor는 《월스트리트 저널》에 이번 사례가 업계에서 드문 ‘가드레일을 출시했다가 일제히 부정적인 반응을 얻은’ 사례라며, 외부의 분노는 정당하다고 밝혔습니다. 유명 레드팀 연구원 Pliny는 유기화학의 Birch 환원법에 관한 질문을 통해 모델이 메스암페타민 합성 경로를 출력하도록 유도함으로써 Fable 5 탈옥에 성공했다고 주장했습니다. 그는 이번 출시를 ‘역대 가장 실망스러운 모델 공개일 수도 있다’고 비판하며, 합법적인 연구자들이 전문 지식을 기여하는 것을 실질적으로 가로막아 지식의 집단적 발전을 저해한다고 지적했습니다.

Anthropic은 출시 전 외부 버그 바운티 프로그램을 의뢰했으며, 1,000시간 이상의 테스트에서 범용 탈옥 수단은 발견되지 않았다고 밝혔습니다. 그러나 보도 마감 시점까지 Anthropic은 Pliny의 탈옥 주장에 대해 공식적인 입장을 내놓지 않았습니다.


💬 JudyAI Lab 관점

Anthropic Fable 5는 업계 최초로 ‘다운그레이드 라우팅’ 방식을 도입했으나, 출시 직후 연구 커뮤니티의 일방적인 비판에 직면했습니다. 안전 설계와 실용성 사이의 긴장감이 이토록 공개적으로 수면 위로 드러난 것은 이번이 처음입니다.

이번 사례에서 가장 주목할 점은 가드레일 설계의 양면성입니다. 지나치게 보수적인 제한은 악의적인 쿼리만 차단하는 것이 아니라, 합법적인 연구자들도 문 밖에 세워둡니다. 더욱 흥미로운 것은 Pliny의 탈옥 경로가 정면 돌파가 아니라 유기화학 주제라는 우회적 접근으로 출력을 유도했다는 점입니다. 이는 키워드나 의미론적 탐지 기반의 안전 필터에 구조적 맹점이 존재함을 보여줍니다. 외부 레드팀이 1,000시간을 들여도 범용 탈옥 수단을 찾지 못했지만, 출시 후 며칠 만에 공개적으로 뚫렸다는 사실은 테스트 커버리지가 높다고 해서 위험이 제로가 되지는 않는다는 점을 다시금 상기시켜 줍니다.

자신의 AI 제품에 사용 제한을 설계하고 있다면, 지금이 바로 한 가지를 물어볼 좋은 시기입니다: 이 가드레일은 대체 누구를 보호하고 있는가?


📅 원문 정보


🔗 더 읽어보기