📰 重點摘要

Anthropic 最新發布的 Fable 5 模型自上線以來飽受批評,核心爭議在於其過度嚴格的安全護欄設計。當使用者詢問生化武器或網路安全等敏感話題時,模型不僅回傳警告通知,還會自動降級切換至舊版能力較弱的模型繼續對話,這是 AI 業界首次採用「降級路由」機制處理敏感查詢。

普林斯頓大學 AI 研究員 Sayash Kapoor 向《華爾街日報》表示,此次是業界罕見「推出護欄卻引發一致負評」的案例,外界憤怒情緒具有正當性。知名紅隊研究員 Pliny 聲稱已成功破解 Fable 5,手法是透過詢問有機化學 Birch 還原法,誘導模型輸出甲基安非他命合成路徑。他同時批評此次發布「可能是史上最令人失望的模型上線」,實質阻礙了合法研究人員貢獻專業知識,妨礙知識的集體進步。

Anthropic 表示發布前曾委託外部執行漏洞獎勵計畫,超過 1,000 小時的測試中未發現任何通用越獄手段。然而截至報導截稿,Anthropic 尚未就 Pliny 的破解聲明公開回應。


💬 JudyAI Lab 觀點

Anthropic Fable 5創下業界首例「降級路由」機制,上線隨即引發研究社群一面倒的批評,安全設計與實用性之間的張力,第一次如此公開地攤在檯面上。

這個案例最值得我們關注的,是護欄設計的雙面性:過度保守的限制不只攔住惡意查詢,同樣把合法研究者擋在門外。更耐人尋味的是,Pliny的破解路徑並非正面突破,而是從有機化學課題的間接角度誘出輸出——這說明基於關鍵詞或語義偵測的安全過濾,本身就存在結構性盲點。外部紅隊花了1,000小時沒找到通用越獄手法,發布後幾天卻被公開攻破,也提醒我們:測試覆蓋率高不等於風險為零。

如果你正在為自己的AI產品設計使用限制,現在是個好時機問一句:這道護欄,究竟在保護誰?


📅 原文資訊


🔗 延伸閱讀