📰 重點摘要

IBM Research 推出 ScarfBench(自包含應用重構基準),專門評估 AI 代理在企業級 Java 框架遷移任務上的真實能力。現有軟體工程基準多聚焦在除錯與程式碼生成,而框架遷移的難度截然不同——不只是翻譯語法,還必須保留執行行為、調整建置系統、處理執行期依賴關係,任何一環出錯都可能導致部署失敗。

ScarfBench 涵蓋三大 Java 生態系的跨框架遷移場景:Spring、Jakarta EE 與 Quarkus。與傳統基準將生成程式碼對照參考實作不同,ScarfBench 採三階段驗證:應用程式必須成功編譯、正確部署、並通過行為驗證測試,三者缺一不可。

實測結果顯示,目前主流前沿編碼代理在 ScarfBench 上的表現不如傳統基準亮眼。評估數據呈現明顯的階梯式衰減:編譯成功率最高,部署成功率次之,行為驗證通過率最低——這說明單看「能不能編譯」會大幅高估遷移品質。此外,目標框架的選擇對難度影響顯著,其中遷移至 Jakarta EE 的挑戰性最高,整體應用程式遷移(whole-application migration)尤其困難。ScarfBench 已開源,為 AI 輔助現代化提供更貼近生產環境的評估標準。


💬 JudyAI Lab 觀點

IBM Research推出的ScarfBench點出了一個長期被低估的盲點——現有AI代理評估多聚焦在程式碼生成,而企業級框架遷移的複雜度根本不在同一層級。

ScarfBench要求AI代理完成的不只是語法轉換,而是從編譯、部署到行為驗證三道關卡全部透過。這個設計揭示了一個值得警惕的現象:主流前沿編碼代理在這套基準上呈現明顯的階梯式衰減,編譯成功率最高,行為驗證透過率最低。這意味著「能生成可編譯的程式碼」和「真正能跑上線」之間存在相當大的落差。對我們這些AI builder來說,這提醒了一件事:評估工具能力時,選用的基準越貼近生產環境,才越能避免被表面數字誤導。ScarfBench已開源,值得作為評估AI輔助現代化工具的參考框架。

下次評估AI是否能勝任系統遷移任務,不妨把「能編譯」「能部署」「行為正確」拆成三道獨立驗證,而不是隻看第一道就下結論。


📅 原文資訊


🔗 延伸閱讀