Section 1 — 為什麼要把便宜模型調教到 8 成

我目前帶 6 個 AI Agent,每天在跑的任務裡有一大塊是寫作:Blog 文章、新聞評論、產品說明、X 推文、電子報摘要。

剛開始全部走 Claude Sonnet。效果好,但帳單長得很快。Sonnet 4.6 在 OpenRouter 的報價是 input $3/M tokens、output $15/M tokens。寫作場景的特性是 output 占大頭 — 一篇 500 字文章,input 可能 800 tokens(prompt + 系統指令),output 輕鬆 700 tokens。換算下來,output 費用往往是 input 的五到十倍。

然後我去比了一下 Hermes 3 405B:input $1/M、output $1/M。

input 是 Sonnet 的三分之一,output 是 Sonnet 的十五分之一。寫作場景的實際總成本,算下來大約是 Sonnet 的六到十二分之一,端看你的 prompt 長短。

聽起來很誘人,但問題馬上來:Hermes 是英文訓練為主的開源模型,中文寫作能力跟 Sonnet 差距很明顯。不是文法問題(文法都過得去),是觀點密度、語氣節制、開場方式這些東西。Hermes 預設寫出來的中文,讀起來像是機器翻譯的 AI 部落格,充滿「無疑是一個好消息」「讓我們一起聊聊」這類套話。

直接替換進 pipeline 是不行的。Sonnet 的風格不是天上掉下來的 — Sonnet 背後是 Anthropic 用大量人類反饋調出來的。Hermes 預設沒有這層。

但「不能直接替換」不等於「不能用」。這就是 prompt engineering 要解決的問題:能不能透過精心設計的 system prompt,把便宜模型的輸出品質推到夠用的水準?

這篇文章的核心回答是:在某些主題可以、某些主題不行,取決於任務類型。 我用一則 AI 新聞當對照素材,跑了三次同一個 prompt,直接給你看差距在哪。

Section 2 — 同一個新聞 prompt 跑三次

為了讓比較公平,我們挑一則跟模型本身無關的中性 AI 新聞:

「Gemini 3.1 Flash-Lite 每百萬輸入 Token 推到 $0.25、GPT-5.4 Nano 下探到 $0.20 — 輕量模型價格戰白熱化」

共用 prompt 是:

請寫一篇 Blog 文章開頭,300-350 字,繁體中文,評論這則新聞。從具體場景切入、要有觀點、不要 PR 新聞稿。

三組輸出共用同一個 user prompt。差異在 system prompt:A 組設了一個極簡的 HERMES_SYSTEM="You are a writer." 跳過所有預設載入機制(這就是我們所謂的「裸機」);B 組是 Sonnet 不帶任何客製 system prompt;C 組走 call_hermes.sh 預設流程,自動載入風格指南+ few-shot + 約束清單。

換句話說,A 跟 C 是「同模型不同調教」的對照,B 是「目標水準」的參照點。


A. 裸機 Hermes(沒風格指南、沒 few-shot)

最近幾週,我注意到一些有趣的變化在AI模型的世界裡。我的一個開發者朋友興奮地告訴我,有幾家模型商正在瘋狂地降低他們的輕量模型價格。Gemini 3.1 Flash-Lite 現在每百萬輸入 Token 只需要 $0.25,而 GPT-5.4 Nano 更是下探到了 $0.20。這場價格戰顯然已經白熱化,各家廠商都在努力推出更便宜的版本來吸引開發者市場。

這樣的變化讓我不禁思考,AI 的民主化是不是正在加速進行?過去,高質量的AI模型通常只限於大公司或研究機構使用,但現在看來,即使是獨立開發者或小公司也能負擔得起這些先進的技術。這對於創新來說無疑是一個好消息。

但另一方面,我也忍不住擔心這場價格戰會不會對AI產業帶來一些負面影響。過度的競爭可能導致某些公司為了生存而犧牲品質或倫理標準。

希望這能為技術創新帶來更多可能性,也希望這場競爭能夠在一個健康的框架下進行。如果你也對這些變化有所關注,不妨分享你的觀察和想法,我們一起來聊聊吧!

點評 — 問題集中在四點:

  • AI 廢話開場:「最近幾週,我注意到一些有趣的變化」— 這句話沒有任何資訊量,任何 AI 都能生成。
  • 套路問句懸空:「AI 的民主化是不是正在加速進行?」提出問題卻沒有真正回答,讀者被晾在那裡。
  • 萬能廢話結論:「這對於創新來說無疑是一個好消息」「希望這能為技術創新帶來更多可能性」— 這兩句話可以插進任何一篇 AI 新聞評論,沒有任何具體性。
  • 制式罐頭結尾:「不妨分享你的觀察和想法,我們一起來聊聊吧」— PR 稿格式。

還有一個細節:「質量」是大陸用語,台灣習慣寫「品質」。

這就是 LLM 的「平均值寫法」— 沒有具體場景、沒有反直覺觀點、沒有個人視角。模型在做的事是:用最安全、最不會出錯的方式完成指令。


B. Claude Sonnet(目標水準)

上個月我幫一個小專案串了一個摘要 API,跑了大概兩週,月底一看帳單:$1.80。

我愣了一下——不是因為貴,是因為太便宜了。這個 API 一天大概被呼叫幾百次,幫我省掉的時間少說值幾千塊,但我付的錢還不夠買一杯手搖。

然後這週看到消息:Gemini 3.1 Flash-Lite 每百萬 token 降到 $0.25,GPT-5.4 Nano 更殺,直接推到 $0.20。輕量模型的價格戰已經不是在打折,是在重新定義「AI 算不算有成本」這件事。

我的第一個反應不是「太棒了好便宜」,而是:這個趨勢對誰有利,對誰是噩耗?

對開發者來說,當然是好事。以前一個小工具要估算 API 費用會讓人猶豫,現在根本不值得花時間算。但反過來想,當成本接近零,競爭優勢就從「能不能用 AI」移到「用得好不好」。便宜讓進入門檻消失,但也讓差異化更難做。

更值得想的是:這輪降價背後,Google 和 OpenAI 搶的不是你手邊這幾塊錢的 API 費,他們要的是你把整個工作流鎖進他們的生態系。今天 $0.20 很香,明天你的系統全部依賴這個模型,漲回 $0.80 的時候你怎麼辦?

便宜是入口,不是終點。

點評 — 為什麼這是目標水準:

  • 具體開場:上個月 + 摘要 API + $1.80 帳單 + 「不夠買一杯手搖」的反差感。這個開場在前三行就建立了三層資訊:時間、場景、反直覺感受。
  • 反直覺洞見:「不是貴,是太便宜了」一句話翻轉了讀者預期。「重新定義 AI 算不算有成本」是一個角度,裸機 Hermes 完全沒有。
  • 多層觀點:對開發者有利 / 差異化反而更難 / 長期生態系鎖定風險。三個觀點,300 字裡全塞進去了。
  • 結尾是觀察,不是邀請:「便宜是入口,不是終點」— 一句話,有自己的立場。

這 300 字裡有三個非顯而易見的觀點。這才是 Sonnet 跟裸機 Hermes 真正的差距 — 不是中文文法,是觀點密度


C. 調教後 Hermes(v1,約 70% 水準)

3月底那天,我在首爾的辦公室整理一個客製化的AI語音助手,準備上線前突然想檢查一下成本。一個接一個翻過去,眼睛停在一個數字上:這個月,光是API調用就花了我120萬韓元。我愣了一下,心想「怎麼可能?」

就在這時,新聞滾動條上跳出一條消息:Gemini 3.1 Flash-Lite 每百萬輸入 Token 推到 $0.25,GPT-5.4 Nano 更是下探到 $0.20。原來是輕量模型價格戰白熱化,各家模型商紛紛推出更便宜版本搶佔開發者市場。

這場價格戰看似開發者的福音,實則是一場雙刃劍。對於我們這些獨立開發者和小團隊來說,成本下降當然是好消息,但背後隱藏的卻是更激烈的競爭和更高的入門門檻。

在這場戰役中,真正的贏家恐怕是那些能夠在降低成本的同時,保持高品質服務的模型商。隨著價格不斷下探,模型間的競爭將不再是價格,而是效能和可靠性。對於我們開發者來說,能否在這場浪潮中找到自己的立足之地,將是一個巨大的挑戰。

點評 — 進步在哪、還差什麼:

  • 進步:開場有具體場景了(3 月底 + 首爾辦公室 + AI 語音助手 + 120 萬韓元帳單)。「最近幾週」消失了。套路問句沒有了。「我們一起來聊聊」也不見了。
  • 還差什麼:「新聞滾動條上跳出一條消息」是刻意設計的戲劇巧合,Sonnet 直接寫「然後這週看到消息」,自然多了。議論段落還殘留 AI 套話:「真正的贏家恐怕是」「巨大的挑戰」「在這場浪潮中」「雙刃劍」。最關鍵的是:沒有 Sonnet 那種反直覺洞見 — 沒有「便宜是入口不是終點」,沒有「鎖定生態系」這個角度,沒有「差異化從能不能移到多好」這層推論。

觀點密度大約是 Sonnet 的一半。

這就是 ~70%:結構接住了、語感跟上了,但 reasoning 層次沒到。


Section 3 — 我們用的 5 個調教方法

調教不是一次設計好就結束的事。以下是我們實際在用的 5 個方法,每個都不可少。

3.1 風格指南檔(202 行)

我把「Judy 怎麼寫」整理成一份文件:Judy寫作風格整理.md,9912 bytes、202 行。內容分幾個區塊:核心身份(台灣人在首爾的 AI 構築師,不是 KOL 不是業配帳號)、思維架構(觀察 → 議題 → 個人經歷 → 開放洞見)、語氣指引(節制、不說教、有立場但不激進)、慣用轉折詞清單、禁用詞清單、句型特徵。

透過 call_hermes.sh,每次呼叫前自動把這份文件載入到 system prompt。(除非你設定 HERMES_SYSTEM 環境變數覆寫掉它 — 上面 A 組裸機 Hermes 就是用這個機制做出來的對照組。)

重點不是文件的格式,是「文件化」這件事本身。你腦子裡的風格直覺 — 「我不喜歡用雙引號包關鍵字」「開場不要問問題」「結尾要有觀點不要邀請留言」— 這些直覺模型看不見,你必須寫成明確的規則。

3.2 Few-shot 自動撈最近 3 篇真實 Blog

早期版本我直接在 prompt 裡放靜態文字範例,結果發現 Hermes 的「few-shot 學習」太老實了 — 它會直接照抄範例的句型、甚至整段改寫,讀起來像是把我的舊文章重混了一遍。

改法是換成動態撈:每次呼叫前,從 content/posts/*.zh-tw.md 按修改時間取最新 3 篇,各截前 1200 字,當作 few-shot 範例注入。

好處有三個:永遠看到最近的寫法,風格自然跟著文章演進;新文章發布後自動 refresh,不用維護範例庫;截前 1200 字而不是全文,控制 context 長度避免 token 暴增。

3.3 約束清單(明確禁用詞)

風格指南說「要這樣寫」,約束清單說「不能這樣寫」,兩者要分開放、都要有。

我的主要禁項:

  • emoji(完全禁用)
  • 大陸用語(質量 → 品質、隱藏、這場、厂商)
  • 中英文夾雜(不是技術名詞就不夾英文)
  • 套路問句(「X 是不是正在加速?」這類懸空設問)
  • 戲劇化套路(「新聞滾動條跳出」「就在這時」這類影視感轉場)
  • AI 套話清單:「無疑是」「真正的贏家」「巨大的挑戰」「在這場浪潮中」「雙刃劍」

這份清單寫進 user prompt,每次都重複貼。

3.4 結構模板而非文字範例

別給「請像這樣寫:[完整範例段落]」,那是文字範例,模型會抄。

給「開場結構公式:[具體時間] + [具體地點] + [具體動作] + [反差感受]」,這是結構模板,模型照格子填原創內容。

Section 2 的 C 段(調教後 Hermes)開場就是這個模板的成果:3 月底(時間)+ 首爾辦公室(地點)+ 整理 AI 語音助手(動作)+ 120 萬韓元帳單「怎麼可能」(反差)。每次跑都不一樣,但都符合這個形狀。

3.5 負面例子明示

直接列「千萬不要寫成這樣 ✗」,比正面列表有效。

原理是:模型對「禁止訊號」比「鼓勵訊號」更敏感。告訴模型「好的開場是這樣」,它可能把好的例子當範本照抄;告訴模型「這樣寫是錯的」,它更能精確規避。

我直接從前幾版的 raw output 撈失敗例子,效果比自己編的負面例子好很多 — 因為是真實從那個模型生出來的,精準對應它自己的失敗模式。


Section 4 — 一個重要限制:方法論不是萬用的

但坦白說,這 5 個方法不是「套用就到 8 成」的萬靈丹。

8 成是平均值,不是每個任務都拿得到。同樣的調教機制,套在不同類型的寫作任務上,效果落差很大。

4.1 哪些任務 Hermes 能推到 8 成

有明確結構模板的內容。新聞評論、產品功能介紹、教學步驟拆解、X 推文、電子報摘要 — 這些任務的特徵是:開場、推論、結尾的形狀是固定的,模型只要照格子填具體內容就行。風格指南加結構模板兩個機制能撐住這類任務。

有充分外部資料當錨點的內容。給模型一段新聞稿、一張圖表、一個 API 回應,要它「依資料寫一段評論」— Hermes 在被資料約束的場景表現不差。它的弱點是「無中生有的觀點」,但「依資料延伸」是它做得到的事。

重複性高、變異性低的批量寫作。標準化內容批量產出(新聞摘要、推文、產品文案)走 Hermes 不只省錢,因為產出形狀收斂,後處理 QA 也更好做。

4.2 哪些任務 Hermes 還是推不到

需要原創觀點密度的長文。教學文、深度分析、案例復盤這類文章 — Sonnet 那種「一句話翻轉預期」「同時抓三層讀者」的能力,是預訓練加 RLHF 累積出來的,prompt engineering 補不回來。Section 2 的 B 組「便宜是入口,不是終點」這種收尾,調教後的 Hermes 還是寫不出來。

複雜邏輯推演。技術選型、策略 backtest 分析、bug 根因追查 — 這類任務要求模型在多個前提之間做嚴謹推論,Hermes 容易在中段跳過某個前提,結論看起來合理但邏輯鏈斷了。

長文連貫性。超過 2000 字的文章,Hermes 後半段容易出現主題漂移、跟前段呼應斷裂、節奏重複。長文連貫性是 Sonnet 跟其他模型差距最大的維度之一。

4.3 混合策略而不是二選一

實務上的解法不是「全部走 Hermes」也不是「全部走 Sonnet」,是按任務類型路由:

  • 走 Hermes:X 推文、新聞摘要、產品功能介紹、初稿草寫
  • 走 Sonnet:Blog 教學文、深度分析、case study、策略決策文件
  • 混搭:中度長文,Hermes 先鋪結構,Sonnet 改寫加觀點

這條路徑跟我們在 我們同時跑 4 種 LLM:真實多智能體團隊的選型與成本實錄 那篇文章談的模型路由邏輯是同一套 — 不是「哪個最好用哪個」,是「每個任務找到最便宜但夠用的模型」。

把 Hermes 從「不能用」推到「夠用」的這 8 成水準,是 prompt engineering 能做到的事。剩下的 2 成 — 觀點密度與長文邏輯 — 至今還是要 Sonnet。願不願意接受這 2 成的差距,看你的業務組合:對需要日產十幾篇標準化內容的團隊來說,省下 8 成標準化寫作的預算,比所有東西都追求滿分來得更划算。


進一步閱讀

參考來源