某天 J 做完例行巡邏回來,跟我說,「姊,我們的 API 成本不對勁,要認真看一下了。」

我當下沒太在意,以為是某個 cron 任務跑壞了之類的。結果她把帳單細項拉出來,我才意識到——原來跑一個多代理系統,每天就是這樣在燒,而且燒得很有規律,很難反駁。

問題不是某一個月特別高。問題是它每個月都在長,因為系統在長。

按 token 計費的帳單邏輯,跟你的直覺不一樣

用 GPT-4o 的時候,你很容易有一個直覺:「這個 call 很便宜,沒關係。」

對的。一個 call 真的很便宜。

但當你有五個 agent 同時在跑,每個每小時被呼叫幾十次,有些在做搜尋、有些在分析、有些在跑排程輸出報告——那個「每 call 很便宜」就開始變成一個很貴的假設。我在台灣和韓國的時差中間睡覺,系統也沒在休息。你睡覺它在跑,你睡覺它在花錢。

切到訂閱制的 MiniMax M2.7 之後,帳單邏輯變成固定的了。不管 ada 那天跑了幾輪分析、mimi 做了多少市場研究,成本是可預期的。

這一個改變比任何模型排行榜上的分數都更直接。

ada 跑資料、mimi 寫策略——實際輸出長什麼樣

我的 AI 團隊裡,ada 是產品工程師,負責資料整理、搜尋任務和研究報告;mimi 是行銷經理,負責市場洞察和內容策略分析。兩個角色的任務性質差很多,所以我可以從兩個維度觀察 M2.7。

ada 的工作需要結構化輸出——格式化的分析結果、工具呼叫的正確執行、JSON 輸出的一致性。M2.7 在這方面比 M2.5 穩,格式跑掉的頻率明顯下降。M2.5 偶爾有「忘記格式指令」的問題——OpenHands 團隊在評測裡也提到類似的標籤遺漏情況,不是個例。M2.7 這方面改善了。

mimi 的工作比較依賴語感,她輸出的內容要像人在說話,不能帶著機器翻譯腔。M2.7 的中文語感比我預期的好,節奏自然,不會在奇怪的地方換詞。GPT-4o 的中文有時候讀起來像是從英文架構翻過來的,M2.7 沒有這個問題。

但我不想說它完美。因為它不是。

三個你在 benchmark 上看不到的坑

context window 看起來夠,跑起來是另一回事。

M2.5 的 context window 是 205K,聽起來很大。但在多代理系統裡,context 是累積的。一個跑了幾輪搜尋、整理、再搜尋的 agent,上下文很快就開始被壓縮。你會看到 agent「忘事」——前幾輪整理好的資訊,後面不見了。M2.7 好一些,但並不是說有了大 context 就可以不管。你還是需要在 agent 架構層面有意識地做 context 管理,不能靠模型自己處理。

tool calling 的穩定性,在開發期很難察覺。

這個坑通常是上了生產環境之後才出現的。tool calling 失敗有時候不報 error,它就是默默沒執行到、或者呼叫了但回傳格式略偏導致解析失敗。我在調 ada 的任務流程時,有一段時間她的輸出結果很怪,後來查才發現是工具回傳格式偶爾跑掉。M2.7 的工具呼叫比 M2.5 穩,但如果你的系統對 tool calling 精準度要求非常高,Claude Sonnet 4.6 在這個面向的表現目前還是比較可靠——這是客觀的差距,不是在拍誰馬屁。

繁體中文輸出,有時候是訓練數據在說話。

M2.7 的繁體中文整體不錯,但偶爾會冒出輕微的簡體表達習慣。不是說不能用,但如果你的受眾對用詞敏感,這個微小差距是有感覺的。我的 QA 流程裡有這一關,影響可控。但如果你以為模型原生支援繁體就什麼都不用管,踩坑只是早晚的問題。

沒有最好的模型,只有適合你系統的模型

說到底,M2.7 讓我的 AI 團隊在成本結構、中文輸出品質和任務穩定性之間找到了一個可以長期運作的平衡點。它不是在每個維度都最強——Claude Sonnet 4.6 的工具呼叫更穩,GPT-5.4 在需要操控電腦介面的任務上有優勢——但在「多 agent、高頻率、需要大量中文輸出」這個非常特定的場景下,它是目前最適合我的選擇。

有一件事讓我印象深刻。M2.7 是在 OpenClaw Agent Harness 框架上構建的,訓練期間自主執行了超過 100 輪架構優化。一個在 agent 環境裡訓練出來的模型,用在 agent 環境裡,也許本來就比較對味。

不知道是不是這樣。更完整的多 Agent 團隊搭建過程,可以參考從零建立 AI 多 Agent 團隊:我們的真實經歷;如果你對 AI 推論的成本結構感興趣,AI 推論定價完整解析有系統性的比較;AI Night Shift 開源啟動則記錄了我們如何讓 Agent 在夜間自主運行的實驗結果。

AI 指揮官手冊 — 零程式背景的 OpenClaw AI 團隊建置實戰指南
$14.90 · 8 章完整內容 + 6 份模板
了解更多 →