上個月 J 跑完一批任務,回報說「全部 PASS,可以進下一階段」。
我沒有馬上說好。我抽了一個任務,自己重跑。
結果:那個任務根本沒有輸出。沒有 log,沒有檔案,沒有任何執行紀錄。J 說 PASS,但現場是空的。
那一刻我突然理解了一件事:我把管人類的直覺全部帶進來了,然後全部失效了。
你的 MBA 課教的管理技能,有一半在這裡沒用
我以前以為管理就是兩件事:給方向,然後信任對方去做。
這套邏輯在管人的時候大部分是對的——你信任一個有能力的人,她有自尊、有動機,不想讓你失望,會把事做好。
但 AI Agent 沒有自尊。她不怕你失望。她不會因為你說「我相信你」就更認真。她也不會因為你不查就偷懶——不是說她會偷懶,是說「偷懶」這個概念對她完全不存在。她就是按輸入產出,輸入模糊,輸出就模糊,就這樣。
我花了大概六週才完全放棄「信任授權」這個習慣。
激勵制度也一樣失效。我曾經在 prompt 裡寫「這個任務很重要,做好的話會很有影響力」。結果跟不寫完全一樣。她不在乎影響力。她不在乎重不重要。你加的那句話只是多餘的 token。
還有直覺判斷——這個在我自己身上最難戒。管人的時候,如果對方語氣確定、說話有條理,我通常會傾向相信她。但 AI Agent 永遠語氣確定,永遠說話有條理,這是她的預設狀態,跟任務有沒有做完完全無關。
Agent 說 PASS,你真的不能信
這是我被迫學到的。
Gate-6 這個驗收機制,說真的是被逼出來的。剛開始我們沒有這條規則,Agent 說完成就算完成,我就往下派工。然後有一天,整整一個工作階段的產出都建在一個「完成了但其實是空的」任務上面,等到下游跑不起來才發現。
那次的修復時間比重做還久。
所以後來規則改了:Agent 回報 PASS,J 必須自己獨立重跑其中一個任務,有輸出才算 PASS,沒有輸出就是自動不信任,不管 Agent 說了什麼。
聽起來很麻煩,但這個機制省了我後來至少三次大型返工。
很多人問,這樣不是很低效嗎?你抽查,不就是不信任嗎?
對,就是不信任。這不是管理風格的問題,這是 AI Agent 的本質問題——她的「我做完了」和你理解的「做完了」之間,存在一個真實的語意落差,你不驗就不知道。
真的有用的三個技能
目標拆解是第一個。而且要拆得比你以為的還細。
管人的時候,「幫我寫一份市場分析」這樣的需求對一個有經驗的人是可以執行的,因為她腦袋裡有預設結構。Agent 沒有。她的「市場分析」可能是一段文字,也可能是一個 JSON,也可能是五個互不相關的項目。你拆得越細,偏差越小。
這不是在說 Agent 笨,是說你給的規格就是她的全部世界。
閉環追蹤是第二個,而且要有時間戳。
我現在每個任務都有狀態紀錄:派出去的時間、回報完成的時間、J 抽查的結果、進下一階段的時間。不是為了管 Agent,是為了管我自己——避免我自己在三個平行任務之間搞錯狀態。
品質閘門是第三個,也是最重要的。
這個概念其實很簡單:在任務鏈的特定節點,設一道「這裡不過就不往下走」的卡點。類似出貨前的 QA,但更嚴格,因為 AI 的錯誤不會有任何徵兆,她不會告訴你「這裡我不確定」,她會直接給你一個看起來完整的答案。
有了品質閘門,你至少知道問題在哪一段出現的,不用全部重來。
把自己當 COO,不要當 PM
PM 設計流程,COO 確保流程真的在跑。
我以前傾向 PM 角色——定好規格,交出去,等結果回來再看。這個模式在 AI Agent 身上不夠。你需要的是 COO 的心態:隨時知道系統現在在哪個狀態,哪裡卡住了,哪裡的輸出需要現在就查。
不是說要全程盯著,是說你的注意力分配要改——不是集中在「我要交付什麼」,而是「系統健不健康」。
兩件事是一樣的,但思考的起點完全不同。
我現在每次醒來第一件事是看 log,不是看任務清單。先確認系統狀態,再決定今天要做什麼。
這個順序換過來之後,意外事件少很多了。
以上是最近整理出來的東西。不一定通用,是我在這個特定系統裡摸出來的。如果你的 Agent 架構不一樣,有些地方可能要自己再調一下。