Hermes 3 405B 跟 Claude Sonnet 比，寫作成本可以省多少？

依 OpenRouter 報價，Hermes 3 405B 是 input $1/M、output $1/M；Sonnet 4.6 是 input $3/M、output $15/M。寫作場景 output 占大頭，一篇 500 字文章實際總成本，Hermes 約是 Sonnet 的六到十二分之一，端看 prompt 長度。output 費用差距最大，可達十五倍。

為什麼裸機 Hermes 寫出來的中文像 AI 廢話？

Hermes 以英文語料訓練為主，預設沒有中文寫作的風格約束，會傾向「最安全、最不會出錯」的平均值寫法。常見四種問題：AI 廢話開場、套路問句懸空、萬能廢話結論、制式罐頭結尾。文法都過得去，但觀點密度、語氣節制、開場切入這些寫作層面跟 Sonnet 差距明顯。

把 Hermes 調教到 Sonnet 8 成水準，具體要做哪幾件事？

本文歸納 5 個方法：載入風格指南（明確禁用語＋語氣定義）、加入 few-shot 範例（給模型看 3-5 篇目標風格）、設約束清單（禁開場套話、禁制式結尾、禁懸空問句）、強制具體場景切入（要求第一段必須有人事時地物）、檢查台灣慣用語（避免「質量」「應該」等大陸用詞或不確定詞）。

Hermes 調教後可以完全取代 Sonnet 嗎？有什麼限制？

不行，這是本文的「1 個重要限制」。Hermes 在某些主題可以推到 8 成、某些主題不行，取決於任務類型。新聞評論、產品說明這類有明確結構的內容效果好；需要原創觀點密度、複雜邏輯推演、長文連貫性的場景仍應走 Sonnet。建議混用：標準化寫作走 Hermes 省錢，高價值內容用 Sonnet。

call_hermes.sh 跟直接打 OpenRouter API 差在哪？

call_hermes.sh 是包裝過的腳本，會自動載入預設的 system prompt、風格指南與 few-shot 範例，使用者只需傳 user prompt。若直接打 OpenRouter API 並設 `HERMES_SYSTEM="You are a writer."`，就是文中 A 組的「裸機」狀態，會跳過所有調教機制，輸出品質直接掉到平均值寫法。

用 Hermes 寫繁體中文，最容易踩到哪些用詞地雷？

最常見是大陸用語滲入：「質量→品質」「視頻→影片」「軟件→軟體」「默認→預設」「文本→文字」「網絡→網路」。其次是 AI 套話：「無疑是一個好消息」「讓我們一起聊聊」「不妨分享你的想法」。建議在 system prompt 加禁用詞清單，並在 post-processing 跑一次 regex 掃描攔截。

哪種團隊適合把 Hermes 導入寫作 pipeline？

適合每天有大量標準化寫作量、月帳單已被 Sonnet output 拉高的團隊，例如跑多 Agent 內容生產、新聞摘要、產品文案批量生成。每月 output 量低於 100 萬 tokens 的小團隊，省下來的錢可能不夠抵 prompt 調教與 QA 時間，這時直接用 Sonnet 更划算。

把開源 Hermes 調教到 Claude Sonnet 8 成寫作水準 — 5 個方法與一個限制

Section 1 — 為什麼要把便宜模型調教到 8 成

我目前帶 6 個 AI Agent，每天在跑的任務裡有一大塊是寫作：Blog 文章、新聞評論、產品說明、X 推文、電子報摘要。

剛開始全部走 Claude Sonnet。效果好，但帳單長得很快。Sonnet 4.6 在 OpenRouter 的報價是 input $3/M tokens、output $15/M tokens。寫作場景的特性是 output 占大頭 — 一篇 500 字文章，input 可能 800 tokens（prompt + 系統指令），output 輕鬆 700 tokens。換算下來，output 費用往往是 input 的五到十倍。

然後我去比了一下 Hermes 3 405B：input $1/M、output $1/M。

input 是 Sonnet 的三分之一，output 是 Sonnet 的十五分之一。寫作場景的實際總成本，算下來大約是 Sonnet 的六到十二分之一，端看你的 prompt 長短。

聽起來很誘人，但問題馬上來：Hermes 是英文訓練為主的開源模型，中文寫作能力跟 Sonnet 差距很明顯。不是文法問題（文法都過得去），是觀點密度、語氣節制、開場方式這些東西。Hermes 預設寫出來的中文，讀起來像是機器翻譯的 AI 部落格，充滿「無疑是一個好消息」「讓我們一起聊聊」這類套話。

直接替換進 pipeline 是不行的。Sonnet 的風格不是天上掉下來的 — Sonnet 背後是 Anthropic 用大量人類反饋調出來的。Hermes 預設沒有這層。

但「不能直接替換」不等於「不能用」。這就是 prompt engineering 要解決的問題：能不能透過精心設計的 system prompt，把便宜模型的輸出品質推到夠用的水準？

這篇文章的核心回答是：在某些主題可以、某些主題不行，取決於任務類型。 我用一則 AI 新聞當對照素材，跑了三次同一個 prompt，直接給你看差距在哪。

Section 2 — 同一個新聞 prompt 跑三次

為了讓比較公平，我們挑一則跟模型本身無關的中性 AI 新聞：

「Gemini 3.1 Flash-Lite 每百萬輸入 Token 推到 $0.25、GPT-5.4 Nano 下探到 $0.20 — 輕量模型價格戰白熱化」

共用 prompt 是：

請寫一篇 Blog 文章開頭，300-350 字，繁體中文，評論這則新聞。從具體場景切入、要有觀點、不要 PR 新聞稿。

三組輸出共用同一個 user prompt。差異在 system prompt：A 組設了一個極簡的 HERMES_SYSTEM="You are a writer." 跳過所有預設載入機制（這就是我們所謂的「裸機」）；B 組是 Sonnet 不帶任何客製 system prompt；C 組走 call_hermes.sh 預設流程，自動載入風格指南＋ few-shot ＋約束清單。

換句話說，A 跟 C 是「同模型不同調教」的對照，B 是「目標水準」的參照點。

A. 裸機 Hermes（沒風格指南、沒 few-shot）

最近幾週，我注意到一些有趣的變化在AI模型的世界裡。我的一個開發者朋友興奮地告訴我，有幾家模型商正在瘋狂地降低他們的輕量模型價格。Gemini 3.1 Flash-Lite 現在每百萬輸入 Token 只需要 $0.25，而 GPT-5.4 Nano 更是下探到了 $0.20。這場價格戰顯然已經白熱化，各家廠商都在努力推出更便宜的版本來吸引開發者市場。
這樣的變化讓我不禁思考，AI 的民主化是不是正在加速進行？過去，高質量的AI模型通常只限於大公司或研究機構使用，但現在看來，即使是獨立開發者或小公司也能負擔得起這些先進的技術。這對於創新來說無疑是一個好消息。
但另一方面，我也忍不住擔心這場價格戰會不會對AI產業帶來一些負面影響。過度的競爭可能導致某些公司為了生存而犧牲品質或倫理標準。
希望這能為技術創新帶來更多可能性，也希望這場競爭能夠在一個健康的框架下進行。如果你也對這些變化有所關注，不妨分享你的觀察和想法，我們一起來聊聊吧！

點評 — 問題集中在四點：

AI 廢話開場：「最近幾週，我注意到一些有趣的變化」— 這句話沒有任何資訊量，任何 AI 都能生成。
套路問句懸空：「AI 的民主化是不是正在加速進行？」提出問題卻沒有真正回答，讀者被晾在那裡。
萬能廢話結論：「這對於創新來說無疑是一個好消息」「希望這能為技術創新帶來更多可能性」— 這兩句話可以插進任何一篇 AI 新聞評論，沒有任何具體性。
制式罐頭結尾：「不妨分享你的觀察和想法，我們一起來聊聊吧」— PR 稿格式。

還有一個細節：「質量」是大陸用語，台灣習慣寫「品質」。

這就是 LLM 的「平均值寫法」— 沒有具體場景、沒有反直覺觀點、沒有個人視角。模型在做的事是：用最安全、最不會出錯的方式完成指令。

B. Claude Sonnet（目標水準）

上個月我幫一個小專案串了一個摘要 API，跑了大概兩週，月底一看帳單：$1.80。
我愣了一下——不是因為貴，是因為太便宜了。這個 API 一天大概被呼叫幾百次，幫我省掉的時間少說值幾千塊，但我付的錢還不夠買一杯手搖。
然後這週看到消息：Gemini 3.1 Flash-Lite 每百萬 token 降到 $0.25，GPT-5.4 Nano 更殺，直接推到 $0.20。輕量模型的價格戰已經不是在打折，是在重新定義「AI 算不算有成本」這件事。
我的第一個反應不是「太棒了好便宜」，而是：這個趨勢對誰有利，對誰是噩耗？
對開發者來說，當然是好事。以前一個小工具要估算 API 費用會讓人猶豫，現在根本不值得花時間算。但反過來想，當成本接近零，競爭優勢就從「能不能用 AI」移到「用得好不好」。便宜讓進入門檻消失，但也讓差異化更難做。
更值得想的是：這輪降價背後，Google 和 OpenAI 搶的不是你手邊這幾塊錢的 API 費，他們要的是你把整個工作流鎖進他們的生態系。今天 $0.20 很香，明天你的系統全部依賴這個模型，漲回 $0.80 的時候你怎麼辦？
便宜是入口，不是終點。

點評 — 為什麼這是目標水準：

具體開場：上個月 + 摘要 API + $1.80 帳單 + 「不夠買一杯手搖」的反差感。這個開場在前三行就建立了三層資訊：時間、場景、反直覺感受。
反直覺洞見：「不是貴，是太便宜了」一句話翻轉了讀者預期。「重新定義 AI 算不算有成本」是一個角度，裸機 Hermes 完全沒有。
多層觀點：對開發者有利 / 差異化反而更難 / 長期生態系鎖定風險。三個觀點，300 字裡全塞進去了。
結尾是觀察，不是邀請：「便宜是入口，不是終點」— 一句話，有自己的立場。

這 300 字裡有三個非顯而易見的觀點。這才是 Sonnet 跟裸機 Hermes 真正的差距 — 不是中文文法，是觀點密度。

C. 調教後 Hermes（v1，約 70% 水準）

3月底那天，我在首爾的辦公室整理一個客製化的AI語音助手，準備上線前突然想檢查一下成本。一個接一個翻過去，眼睛停在一個數字上：這個月，光是API調用就花了我120萬韓元。我愣了一下，心想「怎麼可能？」
就在這時，新聞滾動條上跳出一條消息：Gemini 3.1 Flash-Lite 每百萬輸入 Token 推到 $0.25，GPT-5.4 Nano 更是下探到 $0.20。原來是輕量模型價格戰白熱化，各家模型商紛紛推出更便宜版本搶佔開發者市場。
這場價格戰看似開發者的福音，實則是一場雙刃劍。對於我們這些獨立開發者和小團隊來說，成本下降當然是好消息，但背後隱藏的卻是更激烈的競爭和更高的入門門檻。
在這場戰役中，真正的贏家恐怕是那些能夠在降低成本的同時，保持高品質服務的模型商。隨著價格不斷下探，模型間的競爭將不再是價格，而是效能和可靠性。對於我們開發者來說，能否在這場浪潮中找到自己的立足之地，將是一個巨大的挑戰。

點評 — 進步在哪、還差什麼：

進步：開場有具體場景了（3 月底 + 首爾辦公室 + AI 語音助手 + 120 萬韓元帳單）。「最近幾週」消失了。套路問句沒有了。「我們一起來聊聊」也不見了。
還差什麼：「新聞滾動條上跳出一條消息」是刻意設計的戲劇巧合，Sonnet 直接寫「然後這週看到消息」，自然多了。議論段落還殘留 AI 套話：「真正的贏家恐怕是」「巨大的挑戰」「在這場浪潮中」「雙刃劍」。最關鍵的是：沒有 Sonnet 那種反直覺洞見 — 沒有「便宜是入口不是終點」，沒有「鎖定生態系」這個角度，沒有「差異化從能不能移到多好」這層推論。

觀點密度大約是 Sonnet 的一半。

這就是 ~70%：結構接住了、語感跟上了，但 reasoning 層次沒到。

Section 3 — 我們用的 5 個調教方法

調教不是一次設計好就結束的事。以下是我們實際在用的 5 個方法，每個都不可少。

3.1 風格指南檔（202 行）

我把「Judy 怎麼寫」整理成一份文件：Judy寫作風格整理.md，9912 bytes、202 行。內容分幾個區塊：核心身份（台灣人在首爾的 AI 構築師，不是 KOL 不是業配帳號）、思維架構（觀察 → 議題 → 個人經歷 → 開放洞見）、語氣指引（節制、不說教、有立場但不激進）、慣用轉折詞清單、禁用詞清單、句型特徵。

透過 call_hermes.sh，每次呼叫前自動把這份文件載入到 system prompt。（除非你設定 HERMES_SYSTEM 環境變數覆寫掉它 — 上面 A 組裸機 Hermes 就是用這個機制做出來的對照組。）

重點不是文件的格式，是「文件化」這件事本身。你腦子裡的風格直覺 — 「我不喜歡用雙引號包關鍵字」「開場不要問問題」「結尾要有觀點不要邀請留言」— 這些直覺模型看不見，你必須寫成明確的規則。

3.2 Few-shot 自動撈最近 3 篇真實 Blog

早期版本我直接在 prompt 裡放靜態文字範例，結果發現 Hermes 的「few-shot 學習」太老實了 — 它會直接照抄範例的句型、甚至整段改寫，讀起來像是把我的舊文章重混了一遍。

改法是換成動態撈：每次呼叫前，從 content/posts/*.zh-tw.md 按修改時間取最新 3 篇，各截前 1200 字，當作 few-shot 範例注入。

好處有三個：永遠看到最近的寫法，風格自然跟著文章演進；新文章發布後自動 refresh，不用維護範例庫；截前 1200 字而不是全文，控制 context 長度避免 token 暴增。

3.3 約束清單（明確禁用詞）

風格指南說「要這樣寫」，約束清單說「不能這樣寫」，兩者要分開放、都要有。

我的主要禁項：

emoji（完全禁用）
大陸用語（質量 → 品質、隱藏、這場、厂商）
中英文夾雜（不是技術名詞就不夾英文）
套路問句（「X 是不是正在加速？」這類懸空設問）
戲劇化套路（「新聞滾動條跳出」「就在這時」這類影視感轉場）
AI 套話清單：「無疑是」「真正的贏家」「巨大的挑戰」「在這場浪潮中」「雙刃劍」

這份清單寫進 user prompt，每次都重複貼。

3.4 結構模板而非文字範例

別給「請像這樣寫：[完整範例段落]」，那是文字範例，模型會抄。

給「開場結構公式：[具體時間] + [具體地點] + [具體動作] + [反差感受]」，這是結構模板，模型照格子填原創內容。

Section 2 的 C 段（調教後 Hermes）開場就是這個模板的成果：3 月底（時間）+ 首爾辦公室（地點）+ 整理 AI 語音助手（動作）+ 120 萬韓元帳單「怎麼可能」（反差）。每次跑都不一樣，但都符合這個形狀。

3.5 負面例子明示

直接列「千萬不要寫成這樣 ✗」，比正面列表有效。

原理是：模型對「禁止訊號」比「鼓勵訊號」更敏感。告訴模型「好的開場是這樣」，它可能把好的例子當範本照抄；告訴模型「這樣寫是錯的」，它更能精確規避。

我直接從前幾版的 raw output 撈失敗例子，效果比自己編的負面例子好很多 — 因為是真實從那個模型生出來的，精準對應它自己的失敗模式。

Section 4 — 一個重要限制：方法論不是萬用的

但坦白說，這 5 個方法不是「套用就到 8 成」的萬靈丹。

8 成是平均值，不是每個任務都拿得到。同樣的調教機制，套在不同類型的寫作任務上，效果落差很大。

4.1 哪些任務 Hermes 能推到 8 成

有明確結構模板的內容。新聞評論、產品功能介紹、教學步驟拆解、X 推文、電子報摘要 — 這些任務的特徵是：開場、推論、結尾的形狀是固定的，模型只要照格子填具體內容就行。風格指南加結構模板兩個機制能撐住這類任務。

有充分外部資料當錨點的內容。給模型一段新聞稿、一張圖表、一個 API 回應，要它「依資料寫一段評論」— Hermes 在被資料約束的場景表現不差。它的弱點是「無中生有的觀點」，但「依資料延伸」是它做得到的事。

重複性高、變異性低的批量寫作。標準化內容批量產出（新聞摘要、推文、產品文案）走 Hermes 不只省錢，因為產出形狀收斂，後處理 QA 也更好做。

4.2 哪些任務 Hermes 還是推不到

需要原創觀點密度的長文。教學文、深度分析、案例復盤這類文章 — Sonnet 那種「一句話翻轉預期」「同時抓三層讀者」的能力，是預訓練加 RLHF 累積出來的，prompt engineering 補不回來。Section 2 的 B 組「便宜是入口，不是終點」這種收尾，調教後的 Hermes 還是寫不出來。

複雜邏輯推演。技術選型、策略 backtest 分析、bug 根因追查 — 這類任務要求模型在多個前提之間做嚴謹推論，Hermes 容易在中段跳過某個前提，結論看起來合理但邏輯鏈斷了。

長文連貫性。超過 2000 字的文章，Hermes 後半段容易出現主題漂移、跟前段呼應斷裂、節奏重複。長文連貫性是 Sonnet 跟其他模型差距最大的維度之一。

4.3 混合策略而不是二選一

實務上的解法不是「全部走 Hermes」也不是「全部走 Sonnet」，是按任務類型路由：

走 Hermes：X 推文、新聞摘要、產品功能介紹、初稿草寫
走 Sonnet：Blog 教學文、深度分析、case study、策略決策文件
混搭：中度長文，Hermes 先鋪結構，Sonnet 改寫加觀點

這條路徑跟我們在我們同時跑 4 種 LLM：真實多智能體團隊的選型與成本實錄那篇文章談的模型路由邏輯是同一套 — 不是「哪個最好用哪個」，是「每個任務找到最便宜但夠用的模型」。

把 Hermes 從「不能用」推到「夠用」的這 8 成水準，是 prompt engineering 能做到的事。剩下的 2 成 — 觀點密度與長文邏輯 — 至今還是要 Sonnet。願不願意接受這 2 成的差距，看你的業務組合：對需要日產十幾篇標準化內容的團隊來說，省下 8 成標準化寫作的預算，比所有東西都追求滿分來得更划算。

進一步閱讀

我們同時跑 4 種 LLM：真實多智能體團隊的選型與成本實錄 — 4 個模型的實際分工與帳單拆解
2026 開源 LLM 實戰：我們為何在 AI 團隊中選 MiniMax M2.7 — 另一個開源 LLM 的選型考慮
我怎麼讓超過五個不同模型的 AI 自動自發 24H 工作 — 多模型 Agent 團隊的整體架構

Section 1 — 為什麼要把便宜模型調教到 8 成#

Section 2 — 同一個新聞 prompt 跑三次#

A. 裸機 Hermes（沒風格指南、沒 few-shot）#

B. Claude Sonnet（目標水準）#

C. 調教後 Hermes（v1，約 70% 水準）#

Section 3 — 我們用的 5 個調教方法#

3.1 風格指南檔（202 行）#

3.2 Few-shot 自動撈最近 3 篇真實 Blog#

3.3 約束清單（明確禁用詞）#

3.4 結構模板而非文字範例#

3.5 負面例子明示#

Section 4 — 一個重要限制：方法論不是萬用的#

4.1 哪些任務 Hermes 能推到 8 成#

4.2 哪些任務 Hermes 還是推不到#

4.3 混合策略而不是二選一#

進一步閱讀#

參考來源#

訂閱 AI 週報，每週精選新知：