千代木 Thousand Token Wood 是什麼？跟一般 LLM 多智能體 demo 差在哪？

千代木是 Build Small Hackathon 的多智能體經濟模擬系統，用 Qwen2.5-3B 小模型驅動五隻森林動物在虛構市場交易五種商品換石子。差別在於它把「批次推理」做到極致——每回合僅一次 GPU 呼叫處理所有角色決策，配合 vLLM on Modal 部署，連續模擬的成本壓到可實用範圍，而非單純對話 demo。

為什麼用 3B 小模型就能跑出泡沫與崩盤，不需要 GPT-4 等級？

關鍵不在模型推理力，而在環境約束。作者加入三條稀缺規則——每餐限一單位同類食物、食物會腐爛無法囤積、冬季柴火只剩一名供應者——交易誘因自然浮現。15 回合內蜂蜜從 10 跌至 3、柴火從 4 漲至 7，基尼係數由 0.14 擴至 0.38，全靠規則撐起，與模型大小關聯有限。

Qwen2.5-3B 在這個系統裡表現得如何？輸出穩定嗎？

75 次 API 呼叫達到 100% 有效 JSON 輸出，格式層面完全穩定，每回合可成交 3 至 9 筆。但經濟推理較弱，會有不合理買賣行為。作者的解法是在提示詞裡明確列出每個角色的生產物、禁止購買清單、缺貨清單與範例，把判斷負擔轉嫁給結構化輸入，而非升級模型。

我要做多 Agent 系統，模型怎麼選？什麼時候該換大模型？

千代木給的答案是「結構優於規模」。先檢查三件事：環境是否有稀缺機制讓 Agent 有互動動機、提示詞是否列清角色狀態與禁止項、輸出格式是否用 JSON schema 約束。若這三層都收緊後行為仍崩潰，再考慮換大模型。多數情況是規則設計問題，不是參數量問題。

vLLM 加 Modal 加 Gradio 這套架構，自己跑成本大概多少？

千代木每回合僅一次批次推理涵蓋所有角色，15 回合共 75 次 API 呼叫。以 Qwen2.5-3B 在 Modal 按秒計費的 GPU 上跑，連續模擬數十回合的單次成本通常落在美元零頭區間，遠低於 GPT-4 等級 API。實際數字依 Modal GPU 型號與冷啟動時間浮動，建議先跑 5 回合估算。

用小模型跑多 Agent 經濟模擬最常踩的坑是什麼？

三個常見錯誤：第一，沒設計稀缺性，導致生產過剩、交易誘因消失、Agent 不互動；第二，提示詞只給角色名稱沒列出可生產與禁止購買清單，小模型會亂買；第三，期待模型自己推理出供需邏輯，結果價格亂跳。解法都是強化外部結構，而非換模型。

千代木這套方法適合誰參考？哪些場景不適用？

適合做 Agent 模擬、博弈實驗、教學示範、低成本連續推理的研究者與獨立開發者。不適合需要長期記憶連貫、複雜自然語言對話、或涉及真實金融決策的場景——3B 模型經濟推理仍弱，僅能在規則嚴格約束下產生統計上合理的行為，不可直接套用於生產級交易或諮詢系統。

三十億參數小模型上跑多智能體經濟系統 Thousand Token Wood 實戰報告

📰 重點摘要

「千代木」（Thousand Token Wood）是一個提交給 Build Small Hackathon 的多智能體經濟模擬系統，採用 Qwen2.5-3B 小型模型，驅動五隻森林動物角色在虛構市場內交易五種商品換取石子貨幣。整個系統以 vLLM 部署在 Modal 上，前端使用 Gradio，每回合僅需一次批次 GPU 呼叫即可完成所有角色的決策，讓連續模擬在成本上可行。

技術團隊發現，若市場沒有人為設計的稀缺性機制，生產過剩會讓交易誘因消失，因此加入三道限制：每餐只能吃一單位同類食物、食物會腐爛不能囤積、冬季柴火需求暴增但只有一名供應者。這三條規則直接催生了泡沫與崩盤——以1929銀行擠兌為原型的場景中，角色Oona拋售蜂蜜換取石子，導致蜂蜜價格在數回合內從10跌至3；柴火則因冬季危機從4漲至7。

15回合測試中，75次 API 呼叫達到 100% 有效 JSON 輸出，每回合成交3至9筆，基尼係數從0.14擴大至0.38，財富差距自然浮現。模型雖然JSON格式穩定，但經濟推理較弱，解法是在提示詞中明確列出角色生產物、禁止購買清單、缺貨列表及範例，而非換用更大的模型——作者核心結論是「結構優於規模」。

💬 JudyAI Lab 觀點

千代木用Qwen2.5-3B小模型跑出了泡沫與財富分化，它告訴我們一件反直覺的事：不需要更大的模型，只需要更好的規則設計。

系統能讓蜂蜜在數回合內從10跌至3、柴火從4漲至7，靠的不是模型的經濟推理能力，而是三條人設的稀缺規則——食物腐爛、每餐限量一單位、冬季只有一名供應者。這讓角色產生了真實的交易誘因，也讓泡沫自然浮現。提示詞裡明確列出每個角色的生產物、禁止購買清單與缺貨清單，75次API呼叫達到100% JSON有效輸出，基尼係數從0.14擴大至0.38，財富分化無需設計就出現了。我們觀察這個案例的重點在於：當多Agent系統行為不如預期，先收緊環境約束、把提示詞寫具體，而不是急著換更大的模型。

如果你正在設計多Agent流程，試著問一個問題：拿掉所有外部限制後，Agent之間還有理由彼此互動嗎？答案往往藏在規則設計裡，不在模型大小。

📅 原文資訊

發布時間：2026-06-05T22:18
來源原文：https://huggingface.co/blog/build-small-hackathon/thousand-token-wood-sim

三十億參數小模型上跑多智能體經濟系統 Thousand Token Wood 實戰報告

📰 重點摘要

💬 JudyAI Lab 觀點

📅 原文資訊

🔗 延伸閱讀

參考來源

📰 重點摘要#

💬 JudyAI Lab 觀點#

📅 原文資訊#

🔗 延伸閱讀#

參考來源#

訂閱 AI 週報，每週精選新知：

📰 重點摘要

💬 JudyAI Lab 觀點

📅 原文資訊

🔗 延伸閱讀

參考來源