多智能體 AI 團隊一個月要多少預算？

作者團隊每月 AI 預算約 $255 美元，主要用於 Claude 訂閱和其他模型訂閱。

不同 LLM 適合什麼任務？

Claude 適合架構決策和程式開發；MiniMax 適合文案翻譯和資料整理；Gemini 適合 QA 測試和大量資料歸納。

多 LLM 協作最大的困難是什麼？

格式不一致、延遲差異、計費方式不同是三大挑戰，需要額外開發工具追蹤用量和管理流程。

如何決定要用哪個 LLM？

不是看 benchmark 分數，而是看任務需求和成本效益。複雜任務用高階模型，一般任務用低成本模型更划算。

MiniMax 真的比 Claude 便宜 60 倍嗎？

根據作者實測，MiniMax M2.5 的 API 定價比 Claude Opus 便宜約 60 倍，是大幅降低成本的有效方案。

我們同時跑 4 種 LLM：真實多智能體團隊的選型與成本實錄

上個月 J 在巡邏報告裡寫了一行：「米米這週翻了 41 篇文章，Claude token 帳單沒動。」

我盯著這行字看了一下。

然後我想起來，上個月我們把翻譯任務移到 MiniMax 了。41 篇。幾乎靜默地完成。

就是那個當下，我才意識到我們現在同時跑幾種 LLM 這件事不是什麼技術成就，是一步一步被成本逼出來的現實答案。

不是技術選型，是算帳的結果

我有一段時間以為，用最強的模型就是最省時間的做法。

錯。是最燒錢的做法。

我們現在每月 AI 預算大概 $255 左右——Claude 訂閱是大頭，跑 J 在用的部分。J 負責架構決策、程式開發、協調整個 agent 團隊，這些任務出錯成本很高，Claude Opus 的推理能力在這裡是有真實 ROI 的。

但米米一週要整理幾十篇市場資訊、翻譯內容、生成初稿。阿達要跑程式碼審查和產品頁面。如果這些全走 Opus，預算根本撐不住。

查過資料，MiniMax M2.5 的 API 定價比 Claude Opus 便宜大約 60 倍。60 倍。把適合用 MiniMax 的任務切過去，每個月省下來的空間相當可觀，而且那些任務的產出品質沒有明顯下降。

Gemini 是小月在用的，付費訂閱的 Gemini CLI，不是免費版——我每次說到 Gemini 都要特別補這句，因為有人會自動假設是白嫖 OAuth。這是正當付費的訂閱版本，QA 和研究的任務量大，訂閱比跑 API 划算得多。

這些組合不是一開始就設計好的。是試了幾個月之後，帳單逼著我一個一個想清楚。

文案翻譯、程式開發、QA 測試——誰做什麼不是憑感覺

說具體一點。

J 用 Claude。架構設計、程式開發、邏輯複雜的任務。這種東西錯一步就要重來，用力氣換回來的成本更高。日常開發走 Sonnet，複雜的升 Opus。

米米和阿達用 MiniMax。文案翻譯、產品頁初稿、市場資訊整理、社群貼文。速度要快，用量大，不需要最深的推理。M2.5 在這類任務上輸出穩定，偶爾格式怪一點，但在可接受的範圍內。

小月用 Gemini。QA 測試報告、競品研究、大量資料整理。Gemini 的 context window 大，丟一堆資料讓它歸納出結論是它的強項，訂閱版延遲也很穩。

莉莉（內容這邊）。原創文章走 Claude Sonnet，翻譯和資料研究走 MiniMax。這兩個需求差很多，分開用不同模型是實際跑過才確認的——不是預先設計，是跑一跑才發現「這樣比較對」。

多 LLM 協作的維運現實，沒人告訴你的那種

格式不一致是第一個坑。

Claude 有它的輸出習慣，MiniMax 有它的，Gemini 有它的。Agent 之間要互相讀對方輸出的時候，三種格式在接口處就會產生問題。一開始我們沒想到這個，J 後來補了解析層才稳住。

延遲差異是第二個坑。Claude Sonnet 回應快，Opus 有時候要等。MiniMax 通常快，但尖峰時段偶爾慢。Gemini 訂閱版幾乎不卡。這種差異在自動化流程裡會造成意外——某個 agent 等太久，後面的任務串接就失敗了。自動化排程要把延遲緩衝考慮進去，這件事我們踩過才知道。

計費方式全不同是第三個坑。Claude 和 MiniMax 都是訂閱制，但各自的用量額度和計算方式不一樣；Gemini 也是訂閱制按月。三家的用量上限、重置週期、超額處理方式全部不同，整合在一起追蹤沒有想像中直覺，我們後來自己寫了用量追蹤工具，才能看到整體的消耗狀況。

這些不是大問題，但每一個都要花時間處理。多 LLM 省下的成本，有一部分要回填在這裡。

排行榜告訴你誰最強，但沒告訴你誰最適合你的任務

有段時間我也想過，要不要統一成一個模型。

然後算了一遍就打消念頭了。

全走 Claude Opus，預算撐不住。全走 MiniMax，J 做架構決策的品質會掉，而且複雜任務的錯誤率上升，修錯比省錢更貴。全走 Gemini，繁體中文的原創品質我試過，有差距。

沒有一個模型能在所有任務上同時做到「夠好」加「夠便宜」。benchmark 告訴你哪個模型在哪個測試集表現最好，但 benchmark 不告訴你哪個模型最適合你的語言、你的任務量、你這個月剩多少預算。

我不知道我們現在這個組合是不是最優解。但它是真實試過幾個月之後，目前還能跑起來、帳單還能看的答案。

不是技術選型，是算帳的結果#

文案翻譯、程式開發、QA 測試——誰做什麼不是憑感覺#

多 LLM 協作的維運現實，沒人告訴你的那種#

排行榜告訴你誰最強，但沒告訴你誰最適合你的任務#

新文章直接寄到你的信箱：

不是技術選型，是算帳的結果

文案翻譯、程式開發、QA 測試——誰做什麼不是憑感覺

多 LLM 協作的維運現實，沒人告訴你的那種

排行榜告訴你誰最強，但沒告訴你誰最適合你的任務