你用 Claude Code 做過 Skill 嗎?
如果有,你一定遇過這個問題:Skill 做完了,但你不知道它到底有沒有正常運作。
該觸發的時候沒觸發,不該觸發的時候亂跳出來。你只能靠「感覺」去判斷——感覺應該 OK 吧?
好消息:Claude 官方終於出手了。Skill Creator 這次更新,直接把「測試」和「品質驗證」變成一等公民。
先說結論:這次更新解決什麼問題?
一句話:從「我覺得 Skill 沒問題」變成「我確定 Skill 沒問題」。
以前 Skill 做完就是祈禱它一直好好的,模型更新後壞了也不知道,改了之後有沒有變好也說不準。
現在你可以:
- 自動測試 Skill 有沒有正確觸發
- 量化追蹤每次修改的效果
- 客觀比較兩個版本誰比較好
五大更新功能
1. Eval 評估測試
Skill Creator 現在能幫你自動撰寫測試案例,定義預期的輸入與輸出,然後自動驗證 Skill 是否正確執行。
白話說:以前 Skill 做完只能憑感覺。現在可以幫 Skill 出隨堂考,考完自動批改,直接告訴你哪裡做對、哪裡做錯。
實際操作:跟 Skill Creator 說「幫我測試這個 Skill 的觸發率」,它會自動生成 20 個模擬對話 prompt,包含應該觸發和不應該觸發的情境,然後統計觸發準確率。
2. Benchmark 基準測試
新增標準化的效能評估,會記錄 Eval 通過率、執行時間與 Token 用量,方便在每次模型更新或 Skill 修改後追蹤品質變化。
白話說:就像定期體檢報告。每次跑一次就能看到 Skill 的成績單——考了幾分、花多久、耗多少資源,一目了然有沒有退步。
3. 多代理平行執行
測試改為多個獨立代理同時運行,每個測試在乾淨的環境中執行,不會互相污染。
白話說:以前是一間教室考一題換一題,前面的答案可能影響後面。現在同時開好幾間獨立考場,各考各的,速度更快、結果更準。
4. A/B 比較代理(Comparator)
可以讓系統在不知道哪個版本是哪個的情況下,盲測比較兩個 Skill 版本的輸出品質。
白話說:你改了 Skill 之後不確定有沒有變好?讓一個不知情的裁判同時看兩邊的成果盲評打分,結果完全客觀,不會自我感覺良好。
這個功能底層是三個獨立的 Agent:
- Comparator:盲測比較
- Grader:評分
- Analyzer:分析結果
5. Skill 觸發描述優化
系統會分析 Skill 的描述文字,對比實際使用的提示詞,建議修改以降低誤觸發和漏觸發。
白話說:每個 Skill 都靠一段「自我介紹」讓 Claude 決定什麼時候叫它出場。現在系統會幫你重寫這段介紹,讓該上場的準時上場、不該上場的別亂跳出來——像是幫員工寫一份更精準的職位說明書。
實際怎麼用?
這些功能都不是自動執行的,需要你主動請 Skill Creator 幫忙。
建議流程
- 用 Skill Creator 創建 Skill(跟以前一樣)
- 請 Skill Creator 幫你寫 Eval 測試
- 跑一次確認 Skill 正常運作
- 之後每次模型更新或修改 Skill 時,再跑一次
常用指令範例
| |
更新方式
如果你已經安裝過 Skill Creator,更新很簡單:
在 Claude Code 中直接說「幫我更新 skill-creator」,或者手動 pull 官方 plugins repo 的最新版本就好。
我的觀點
這次更新對 Skill 生態系統是一個關鍵轉折。
之前 Skill 的最大痛點不是「不會做」,而是「做完不知道好不好」。你可能花了一小時精心調校,結果還不如原來的版本——但你根本不知道,因為沒有量化比較的工具。
現在有了 Eval + Benchmark + A/B Comparator,Skill 開發終於從「手藝活」變成「工程化」。
特別推薦兩個場景用起來:
- 模型更新後:每次 Claude 模型升級,跑一次 Benchmark 確認 Skill 沒壞
- Skill 改版後:用 Comparator 盲測,確定新版真的比舊版好
不要再靠感覺了,讓數據說話。