Section 1 — 為什麼要把便宜模型調教到 8 成
我目前帶 6 個 AI Agent,每天在跑的任務裡有一大塊是寫作:Blog 文章、新聞評論、產品說明、X 推文、電子報摘要。
剛開始全部走 Claude Sonnet。效果好,但帳單長得很快。Sonnet 4.6 在 OpenRouter 的報價是 input $3/M tokens、output $15/M tokens。寫作場景的特性是 output 占大頭 — 一篇 500 字文章,input 可能 800 tokens(prompt + 系統指令),output 輕鬆 700 tokens。換算下來,output 費用往往是 input 的五到十倍。
然後我去比了一下 Hermes 3 405B:input $1/M、output $1/M。
input 是 Sonnet 的三分之一,output 是 Sonnet 的十五分之一。寫作場景的實際總成本,算下來大約是 Sonnet 的六到十二分之一,端看你的 prompt 長短。
聽起來很誘人,但問題馬上來:Hermes 是英文訓練為主的開源模型,中文寫作能力跟 Sonnet 差距很明顯。不是文法問題(文法都過得去),是觀點密度、語氣節制、開場方式這些東西。Hermes 預設寫出來的中文,讀起來像是機器翻譯的 AI 部落格,充滿「無疑是一個好消息」「讓我們一起聊聊」這類套話。
直接替換進 pipeline 是不行的。Sonnet 的風格不是天上掉下來的 — Sonnet 背後是 Anthropic 用大量人類反饋調出來的。Hermes 預設沒有這層。
但「不能直接替換」不等於「不能用」。這就是 prompt engineering 要解決的問題:能不能透過精心設計的 system prompt,把便宜模型的輸出品質推到夠用的水準?
這篇文章的核心回答是:在某些主題可以、某些主題不行,取決於任務類型。 我用一則 AI 新聞當對照素材,跑了三次同一個 prompt,直接給你看差距在哪。
Section 2 — 同一個新聞 prompt 跑三次
為了讓比較公平,我們挑一則跟模型本身無關的中性 AI 新聞:
「Gemini 3.1 Flash-Lite 每百萬輸入 Token 推到 $0.25、GPT-5.4 Nano 下探到 $0.20 — 輕量模型價格戰白熱化」
共用 prompt 是:
請寫一篇 Blog 文章開頭,300-350 字,繁體中文,評論這則新聞。從具體場景切入、要有觀點、不要 PR 新聞稿。
三組輸出共用同一個 user prompt。差異在 system prompt:A 組設了一個極簡的 HERMES_SYSTEM="You are a writer." 跳過所有預設載入機制(這就是我們所謂的「裸機」);B 組是 Sonnet 不帶任何客製 system prompt;C 組走 call_hermes.sh 預設流程,自動載入風格指南+ few-shot + 約束清單。
換句話說,A 跟 C 是「同模型不同調教」的對照,B 是「目標水準」的參照點。
A. 裸機 Hermes(沒風格指南、沒 few-shot)
最近幾週,我注意到一些有趣的變化在AI模型的世界裡。我的一個開發者朋友興奮地告訴我,有幾家模型商正在瘋狂地降低他們的輕量模型價格。Gemini 3.1 Flash-Lite 現在每百萬輸入 Token 只需要 $0.25,而 GPT-5.4 Nano 更是下探到了 $0.20。這場價格戰顯然已經白熱化,各家廠商都在努力推出更便宜的版本來吸引開發者市場。
這樣的變化讓我不禁思考,AI 的民主化是不是正在加速進行?過去,高質量的AI模型通常只限於大公司或研究機構使用,但現在看來,即使是獨立開發者或小公司也能負擔得起這些先進的技術。這對於創新來說無疑是一個好消息。
但另一方面,我也忍不住擔心這場價格戰會不會對AI產業帶來一些負面影響。過度的競爭可能導致某些公司為了生存而犧牲品質或倫理標準。
希望這能為技術創新帶來更多可能性,也希望這場競爭能夠在一個健康的框架下進行。如果你也對這些變化有所關注,不妨分享你的觀察和想法,我們一起來聊聊吧!
點評 — 問題集中在四點:
- AI 廢話開場:「最近幾週,我注意到一些有趣的變化」— 這句話沒有任何資訊量,任何 AI 都能生成。
- 套路問句懸空:「AI 的民主化是不是正在加速進行?」提出問題卻沒有真正回答,讀者被晾在那裡。
- 萬能廢話結論:「這對於創新來說無疑是一個好消息」「希望這能為技術創新帶來更多可能性」— 這兩句話可以插進任何一篇 AI 新聞評論,沒有任何具體性。
- 制式罐頭結尾:「不妨分享你的觀察和想法,我們一起來聊聊吧」— PR 稿格式。
還有一個細節:「質量」是大陸用語,台灣習慣寫「品質」。
這就是 LLM 的「平均值寫法」— 沒有具體場景、沒有反直覺觀點、沒有個人視角。模型在做的事是:用最安全、最不會出錯的方式完成指令。
B. Claude Sonnet(目標水準)
上個月我幫一個小專案串了一個摘要 API,跑了大概兩週,月底一看帳單:$1.80。
我愣了一下——不是因為貴,是因為太便宜了。這個 API 一天大概被呼叫幾百次,幫我省掉的時間少說值幾千塊,但我付的錢還不夠買一杯手搖。
然後這週看到消息:Gemini 3.1 Flash-Lite 每百萬 token 降到 $0.25,GPT-5.4 Nano 更殺,直接推到 $0.20。輕量模型的價格戰已經不是在打折,是在重新定義「AI 算不算有成本」這件事。
我的第一個反應不是「太棒了好便宜」,而是:這個趨勢對誰有利,對誰是噩耗?
對開發者來說,當然是好事。以前一個小工具要估算 API 費用會讓人猶豫,現在根本不值得花時間算。但反過來想,當成本接近零,競爭優勢就從「能不能用 AI」移到「用得好不好」。便宜讓進入門檻消失,但也讓差異化更難做。
更值得想的是:這輪降價背後,Google 和 OpenAI 搶的不是你手邊這幾塊錢的 API 費,他們要的是你把整個工作流鎖進他們的生態系。今天 $0.20 很香,明天你的系統全部依賴這個模型,漲回 $0.80 的時候你怎麼辦?
便宜是入口,不是終點。
點評 — 為什麼這是目標水準:
- 具體開場:上個月 + 摘要 API + $1.80 帳單 + 「不夠買一杯手搖」的反差感。這個開場在前三行就建立了三層資訊:時間、場景、反直覺感受。
- 反直覺洞見:「不是貴,是太便宜了」一句話翻轉了讀者預期。「重新定義 AI 算不算有成本」是一個角度,裸機 Hermes 完全沒有。
- 多層觀點:對開發者有利 / 差異化反而更難 / 長期生態系鎖定風險。三個觀點,300 字裡全塞進去了。
- 結尾是觀察,不是邀請:「便宜是入口,不是終點」— 一句話,有自己的立場。
這 300 字裡有三個非顯而易見的觀點。這才是 Sonnet 跟裸機 Hermes 真正的差距 — 不是中文文法,是觀點密度。
C. 調教後 Hermes(v1,約 70% 水準)
3月底那天,我在首爾的辦公室整理一個客製化的AI語音助手,準備上線前突然想檢查一下成本。一個接一個翻過去,眼睛停在一個數字上:這個月,光是API調用就花了我120萬韓元。我愣了一下,心想「怎麼可能?」
就在這時,新聞滾動條上跳出一條消息:Gemini 3.1 Flash-Lite 每百萬輸入 Token 推到 $0.25,GPT-5.4 Nano 更是下探到 $0.20。原來是輕量模型價格戰白熱化,各家模型商紛紛推出更便宜版本搶佔開發者市場。
這場價格戰看似開發者的福音,實則是一場雙刃劍。對於我們這些獨立開發者和小團隊來說,成本下降當然是好消息,但背後隱藏的卻是更激烈的競爭和更高的入門門檻。
在這場戰役中,真正的贏家恐怕是那些能夠在降低成本的同時,保持高品質服務的模型商。隨著價格不斷下探,模型間的競爭將不再是價格,而是效能和可靠性。對於我們開發者來說,能否在這場浪潮中找到自己的立足之地,將是一個巨大的挑戰。
點評 — 進步在哪、還差什麼:
- 進步:開場有具體場景了(3 月底 + 首爾辦公室 + AI 語音助手 + 120 萬韓元帳單)。「最近幾週」消失了。套路問句沒有了。「我們一起來聊聊」也不見了。
- 還差什麼:「新聞滾動條上跳出一條消息」是刻意設計的戲劇巧合,Sonnet 直接寫「然後這週看到消息」,自然多了。議論段落還殘留 AI 套話:「真正的贏家恐怕是」「巨大的挑戰」「在這場浪潮中」「雙刃劍」。最關鍵的是:沒有 Sonnet 那種反直覺洞見 — 沒有「便宜是入口不是終點」,沒有「鎖定生態系」這個角度,沒有「差異化從能不能移到多好」這層推論。
觀點密度大約是 Sonnet 的一半。
這就是 ~70%:結構接住了、語感跟上了,但 reasoning 層次沒到。
Section 3 — 我們用的 5 個調教方法
調教不是一次設計好就結束的事。以下是我們實際在用的 5 個方法,每個都不可少。
3.1 風格指南檔(202 行)
我把「Judy 怎麼寫」整理成一份文件:Judy寫作風格整理.md,9912 bytes、202 行。內容分幾個區塊:核心身份(台灣人在首爾的 AI 構築師,不是 KOL 不是業配帳號)、思維架構(觀察 → 議題 → 個人經歷 → 開放洞見)、語氣指引(節制、不說教、有立場但不激進)、慣用轉折詞清單、禁用詞清單、句型特徵。
透過 call_hermes.sh,每次呼叫前自動把這份文件載入到 system prompt。(除非你設定 HERMES_SYSTEM 環境變數覆寫掉它 — 上面 A 組裸機 Hermes 就是用這個機制做出來的對照組。)
重點不是文件的格式,是「文件化」這件事本身。你腦子裡的風格直覺 — 「我不喜歡用雙引號包關鍵字」「開場不要問問題」「結尾要有觀點不要邀請留言」— 這些直覺模型看不見,你必須寫成明確的規則。
3.2 Few-shot 自動撈最近 3 篇真實 Blog
早期版本我直接在 prompt 裡放靜態文字範例,結果發現 Hermes 的「few-shot 學習」太老實了 — 它會直接照抄範例的句型、甚至整段改寫,讀起來像是把我的舊文章重混了一遍。
改法是換成動態撈:每次呼叫前,從 content/posts/*.zh-tw.md 按修改時間取最新 3 篇,各截前 1200 字,當作 few-shot 範例注入。
好處有三個:永遠看到最近的寫法,風格自然跟著文章演進;新文章發布後自動 refresh,不用維護範例庫;截前 1200 字而不是全文,控制 context 長度避免 token 暴增。
3.3 約束清單(明確禁用詞)
風格指南說「要這樣寫」,約束清單說「不能這樣寫」,兩者要分開放、都要有。
我的主要禁項:
- emoji(完全禁用)
- 大陸用語(質量 → 品質、隱藏、這場、厂商)
- 中英文夾雜(不是技術名詞就不夾英文)
- 套路問句(「X 是不是正在加速?」這類懸空設問)
- 戲劇化套路(「新聞滾動條跳出」「就在這時」這類影視感轉場)
- AI 套話清單:「無疑是」「真正的贏家」「巨大的挑戰」「在這場浪潮中」「雙刃劍」
這份清單寫進 user prompt,每次都重複貼。
3.4 結構模板而非文字範例
別給「請像這樣寫:[完整範例段落]」,那是文字範例,模型會抄。
給「開場結構公式:[具體時間] + [具體地點] + [具體動作] + [反差感受]」,這是結構模板,模型照格子填原創內容。
Section 2 的 C 段(調教後 Hermes)開場就是這個模板的成果:3 月底(時間)+ 首爾辦公室(地點)+ 整理 AI 語音助手(動作)+ 120 萬韓元帳單「怎麼可能」(反差)。每次跑都不一樣,但都符合這個形狀。
3.5 負面例子明示
直接列「千萬不要寫成這樣 ✗」,比正面列表有效。
原理是:模型對「禁止訊號」比「鼓勵訊號」更敏感。告訴模型「好的開場是這樣」,它可能把好的例子當範本照抄;告訴模型「這樣寫是錯的」,它更能精確規避。
我直接從前幾版的 raw output 撈失敗例子,效果比自己編的負面例子好很多 — 因為是真實從那個模型生出來的,精準對應它自己的失敗模式。
Section 4 — 一個重要限制:方法論不是萬用的
但坦白說,這 5 個方法不是「套用就到 8 成」的萬靈丹。
8 成是平均值,不是每個任務都拿得到。同樣的調教機制,套在不同類型的寫作任務上,效果落差很大。
4.1 哪些任務 Hermes 能推到 8 成
有明確結構模板的內容。新聞評論、產品功能介紹、教學步驟拆解、X 推文、電子報摘要 — 這些任務的特徵是:開場、推論、結尾的形狀是固定的,模型只要照格子填具體內容就行。風格指南加結構模板兩個機制能撐住這類任務。
有充分外部資料當錨點的內容。給模型一段新聞稿、一張圖表、一個 API 回應,要它「依資料寫一段評論」— Hermes 在被資料約束的場景表現不差。它的弱點是「無中生有的觀點」,但「依資料延伸」是它做得到的事。
重複性高、變異性低的批量寫作。標準化內容批量產出(新聞摘要、推文、產品文案)走 Hermes 不只省錢,因為產出形狀收斂,後處理 QA 也更好做。
4.2 哪些任務 Hermes 還是推不到
需要原創觀點密度的長文。教學文、深度分析、案例復盤這類文章 — Sonnet 那種「一句話翻轉預期」「同時抓三層讀者」的能力,是預訓練加 RLHF 累積出來的,prompt engineering 補不回來。Section 2 的 B 組「便宜是入口,不是終點」這種收尾,調教後的 Hermes 還是寫不出來。
複雜邏輯推演。技術選型、策略 backtest 分析、bug 根因追查 — 這類任務要求模型在多個前提之間做嚴謹推論,Hermes 容易在中段跳過某個前提,結論看起來合理但邏輯鏈斷了。
長文連貫性。超過 2000 字的文章,Hermes 後半段容易出現主題漂移、跟前段呼應斷裂、節奏重複。長文連貫性是 Sonnet 跟其他模型差距最大的維度之一。
4.3 混合策略而不是二選一
實務上的解法不是「全部走 Hermes」也不是「全部走 Sonnet」,是按任務類型路由:
- 走 Hermes:X 推文、新聞摘要、產品功能介紹、初稿草寫
- 走 Sonnet:Blog 教學文、深度分析、case study、策略決策文件
- 混搭:中度長文,Hermes 先鋪結構,Sonnet 改寫加觀點
這條路徑跟我們在 我們同時跑 4 種 LLM:真實多智能體團隊的選型與成本實錄 那篇文章談的模型路由邏輯是同一套 — 不是「哪個最好用哪個」,是「每個任務找到最便宜但夠用的模型」。
把 Hermes 從「不能用」推到「夠用」的這 8 成水準,是 prompt engineering 能做到的事。剩下的 2 成 — 觀點密度與長文邏輯 — 至今還是要 Sonnet。願不願意接受這 2 成的差距,看你的業務組合:對需要日產十幾篇標準化內容的團隊來說,省下 8 成標準化寫作的預算,比所有東西都追求滿分來得更划算。
進一步閱讀
- 我們同時跑 4 種 LLM:真實多智能體團隊的選型與成本實錄 — 4 個模型的實際分工與帳單拆解
- 2026 開源 LLM 實戰:我們為何在 AI 團隊中選 MiniMax M2.7 — 另一個開源 LLM 的選型考慮
- 我怎麼讓超過五個不同模型的 AI 自動自發 24H 工作 — 多模型 Agent 團隊的整體架構