title: “AI 推論定價完全解析 — 從免費到每百萬 Token 21 美元” date: 2026-03-19T11:00:00+09:00 draft: false author: “Judy Chen” summary: “AI 世界也有 Gas Fee — 每次呼叫模型都在燒 Token。從免費開源模型到 GPT-5.2 Pro 的每百萬 Token 21 美元,一份完整的 AI 推論定價地圖。搞懂定價結構,才看得懂 AI 產業的真實需求和投資機會。” description: “AI 世界的 Token 就像加密貨幣的 Gas Fee — 每次使用都要付費。從免費開源模型到旗艦 API,一份完整的 AI 推論定價地圖。” tags: [“AI定價”, “Token”, “推論成本”, “模型比較”] categories: [“AI投資觀察”] ShowReadingTime: true ShowWordCount: true cover: hidden: true faq:

  • q: “AI Token 跟加密貨幣的 Token 有什麼不同?”

a: “加密貨幣的 Token 是區塊鏈上的數位資產,有市場價格可以交易。AI Token 是文字的計量單位,用來計算 API 呼叫費用,不能交易,更像是電信帳單裡的通話秒數。”

  • q: “中文使用者呼叫 AI API 真的比較貴嗎?”

a: “是的。一個中文字大約會被拆成 1-3 個 Token,而一個英文單字通常只佔 1 個 Token。同樣的語意內容,中文的 Token 消耗量大約是英文的 1.5 到 2.5 倍,直接影響 API 費用。”

  • q: “免費的開源模型品質夠用嗎?”

a: “看用途。Llama 4 和 Gemma 3 等開源模型在多數日常任務上已經接近 GPT-4o 等級,適合對延遲不敏感、可以自架伺服器的場景。但在複雜推理和長文生成上,旗艦商用模型仍有優勢。”

  • q: “Batch API 和 Prompt Caching 可以疊加使用嗎?”

a: “理論上可以。Batch API 提供約 5 折優惠,Prompt Caching 可以讓重複的輸入部分省下最高 90% 費用。兩者疊加的實際折扣取決於具體使用場景和供應商政策。”

  • q: “AI 推論成本跟加密貨幣投資有什麼關係?”

a: “AI 推論需要大量 GPU 算力,推論需求越高代表算力市場越大。這直接影響 NVIDIA 等晶片公司的營收,也推動去中心化算力網路(如 Render、Akash)的代幣需求。理解 AI 定價結構,有助於判斷算力需求的真實規模。” hidden: true ShowBreadCrumbs: true ShowToc: true TocOpen: true

同一個詞,兩個完全不同的世界

前幾天在社群裡跟朋友聊天,有人問我:「Judy,你說的 Token 到底是 AI 的還是幣圈的?」

我愣了一下。

對啊,我每天同時在兩個世界裡用「Token」這個詞,但意思完全不一樣。在幣圈,Token 是資產,可以買賣、有市值、能讓人一夜暴富或血本無歸。在 AI 的世界,Token 是文字的最小計量單位 — 你每打一個字、每問 AI 一個問題,都在消耗 Token。

這就像你用以太坊轉帳要付 Gas Fee 一樣,呼叫 AI 模型也要付費。只是 AI 的 Gas Fee 不是用 ETH 結算,是用美元算的。而且這個「費率」,各家差異大到離譜。

從完全免費,到每百萬 Token 要價 21 美元。

今天我想把這張 AI 推論定價的地圖攤開來看。不是要寫教科書,是因為我自己在用 7 個 AI Agent 跑團隊的過程中,Token 費用是我每天都在面對的現實成本。搞懂這個,你才看得懂 AI 產業背後真正的經濟規模。

AI 的 Token 到底是什麼?

先講最基本的。

AI 模型不認識「字」,它認識的是 Token。你可以把 Token 想成是文字被切碎後的小碎片。英文比較好理解 — “Hello” 是 1 個 Token,“artificial intelligence” 大概是 2-3 個 Token。模型把文字拆成這些碎片,才能理解和生成內容。

用加密貨幣的概念來類比:

  • Token = Gas 單位。 你在以太坊上執行一個智能合約,Gas 用量取決於合約的複雜度。AI 也一樣,你的問題越長、要求的回答越詳細,消耗的 Token 越多。
  • Token 單價 = Gas Price。 以太坊的 Gas Price 會隨網路擁堵而波動。AI 的 Token 單價則是各家公司自己定的,不會即時波動,但不同模型之間的價差非常大。
  • 總費用 = Token 用量 x 單價。 跟你付 Gas Fee 的邏輯一模一樣。

還有一個關鍵差異:AI API 的定價分成**輸入(Input)輸出(Output)**兩種價格。你問問題的部分是輸入,AI 回答你的部分是輸出。輸出通常比輸入貴很多 — 因為生成文字比讀取文字需要更多算力。

這就像以太坊上「讀取」鏈上資料不用 Gas,但「寫入」要付 Gas 一樣的道理。

2026 年 AI 推論定價全景

我整理了一張表,涵蓋目前市場上主流模型的 API 定價。所有價格都是每百萬 Token 的美元計價:

價格截至 2026 年 3 月,各家隨時可能調整。開源模型免費指的是模型本身,自建伺服器的硬體和電費另計。

光看這張表,最貴和最便宜之間差了好幾百倍。但這不代表便宜的就差、貴的就好 — 這背後有很多值得拆開來看的東西。

四個定價層級,各有各的邏輯

第一層:免費開源(Llama 4、Gemma 3、DeepSeek V3)

Meta 的 Llama 4 和 Google 的 Gemma 3 是完全開源的,你可以下載模型檔案,在自己的電腦或伺服器上跑,不用付任何 API 費用。

但「免費」是有前提的。你需要自己準備 GPU 硬體。一張像樣的顯卡動輒幾千美元,電費也是持續支出。所以這個「免費」比較像是買房 vs 租房 — 前期投資大,但長期跑起來每次呼叫的邊際成本趨近於零。

DeepSeek V3 稍微不同,它雖然也開源,但同時提供商用 API,輸入每百萬 Token 只要 $0.28。這個價格低到有點嚇人,靠的是混合專家架構(MoE)壓低了推論時的算力消耗。

適合的人:有技術能力自建、對延遲不敏感、或是呼叫量大到租 API 不划算的場景。

第二層:預算級($0.05 - $0.80)

GPT-4.1 Nano($0.05)、GPT-4o Mini($0.15)、Claude Haiku 3.5($0.80)。

這一層是「堪用就好」的選擇。拿來做簡單的文字分類、摘要、客服回覆,綽綽有餘。不需要深度推理,但要能穩定、快速地處理大量請求。

我自己的 AI 團隊裡,有幾個 Agent 就是用這個層級的模型在跑。像是日常的格式檢查、簡單的資料整理,不需要用到旗艦模型。省下來的錢拿去給真正需要動腦的任務用。

第三層:中階主力($1 - $5)

Gemini 2.5 Pro($1.25)、GPT-5.2($1.75)、GPT-4.1($2.00)、Claude Sonnet 4.6($3.00)、Claude Opus 4.6($5.00)。

這是目前最「甜蜜點」的區間。模型能力已經很強,價格還在可控範圍。大部分商用 AI 應用 — 聊天機器人、內容生成、程式輔助 — 都會落在這一層。

特別值得注意的是 Claude Opus 4.6。它的前代 Opus 4 要 $15 輸入 / $75 輸出,現在 4.6 版直接降到 $5 / $25,性能還更好。這種「更強更便宜」的趨勢在 AI 產業很常見,跟摩爾定律的精神很像。

第四層:頂級推理($5 - $21)

Claude Opus 4($15 輸入)、GPT-5.2 Pro($21 輸入 / $168 輸出)。

這一層是給那些「錢不是問題,我要最好的推理品質」的場景。複雜的數學證明、長篇程式碼審核、需要多步驟深度推理的任務。

GPT-5.2 Pro 的輸出價格每百萬 Token 要 $168,是目前市場上最貴的。但它的目標客戶不是個人用戶,是企業級的研究部門和金融機構。對他們來說,一個正確的推理結果可能價值幾百萬美元,$168 算什麼。

省錢的三板斧

如果你開始認真用 AI API,遲早會碰到帳單問題。以下是目前最有效的三種省錢策略。

Batch API — 約 5 折

大部分主流供應商都提供 Batch API,把你的請求打包,24 小時內處理完成。不需要即時回應的任務(像是批次翻譯、資料分析)用這個,直接省一半。

Anthropic 和 OpenAI 的 Batch API 折扣都是 50%。也就是說,Claude Sonnet 4.6 用 Batch API 跑,輸入價格從 $3.00 降到 $1.50。

Prompt Caching — 可省高達 90%

如果你的 API 呼叫有大量重複的前綴內容(比如系統提示詞、固定的背景資料),Prompt Caching 會把這些內容快取起來。下次呼叫時,快取命中的部分只收 10% 的費用。

Anthropic 的 Prompt Caching 快取命中價格是標準輸入價的 10%,最多可以省到 90%。對於需要反覆呼叫同一個模型、帶有長系統提示詞的應用來說,這個節省幅度很可觀。

模型路由(Model Routing) — 按任務選模型

這是我自己每天都在做的事。不是所有任務都需要用最貴的模型。

簡單的問題用 Haiku 回答,複雜的問題才動用 Opus。我的 AI 團隊裡,管理層 Agent 用高階模型做決策,執行層 Agent 用平價模型跑日常任務。

理論上,這三個策略可以疊加使用。Batch API 打 5 折,Prompt Caching 再省 90% 的重複部分,加上模型路由只在必要時用貴的模型。實際能省多少取決於你的具體使用場景,但整體成本壓到原來的 20-30% 是做得到的。

中文使用者的隱藏成本

這是我特別想提的一點,因為很少有人講。

AI 的分詞器(Tokenizer)是以英文為基底設計的。英文單字通常 1 個 Token 就搞定,但中文字的拆法完全不同。

根據目前主流分詞器的實測,一個中文字大約會被拆成 1 到 3 個 Token。平均下來,同樣語意的內容,中文消耗的 Token 量大約是英文的 1.5 到 2.5 倍。

這代表什麼?

假設你用 Claude Sonnet 4.6(輸入 $3.00 / 百萬 Token)來處理一段 1,000 字的文本:

  • 英文 1,000 字約 750 Token → 約 $0.00225
  • 中文 1,000 字約 1,500-2,000 Token → 約 $0.0045 - $0.006

中文用戶等於在付一筆「語言稅」。同樣的任務,成本可能多出一倍以上。

好消息是,像 DeepSeek 這樣專門優化過中文分詞的模型,中文 Token 效率會好很多。選模型的時候,除了看價格和能力,分詞效率也是中文用戶需要考慮的因素。

為什麼加密貨幣投資者需要看懂這些

講了這麼多定價細節,跟投資到底有什麼關係?

關係在「算力需求」。

每一次 AI 推論呼叫,背後都需要 GPU 在運算。全世界每天有幾十億次的 AI API 呼叫,每一次都在消耗算力。這個需求是真實的、可量化的,不是靠敘事吹出來的。

據 Bloomberg 報導,光是 Anthropic 一家公司,2026 年的年化營收就接近 200 億美元。OpenAI 也在同一個量級。這些營收的很大一部分來自 API 呼叫的 Token 費用 — 就是我們剛才看的那些定價表。

這串連起來的邏輯是:

AI 推論需求增長 → GPU 算力需求增長 → NVIDIA 等晶片公司受益 → 去中心化算力網路(Render、Akash、io.net)的需求也跟著漲。

而且有一個有趣的趨勢:AI 推論的單價在下降(Opus 4.6 比 Opus 4 便宜 67%),但總需求量的成長速度遠超過單價下降的速度。這跟網路頻寬的演進很像 — 價格越便宜、用量越大,總市場反而更大。

所以當你看到「AI 推論成本又降了」的新聞時,不要直覺認為這是利空。成本下降意味著更多人用得起,需求反而會爆發性成長。

寫在最後

我每天早上起來,打開電腦,7 個 AI Agent 的狀態報告已經在那裡等我了。

看報告、做決策、分派任務 — 這些背後都是 Token 在流動。有時候我會想,我現在的工作跟以前在看鏈上交易數據其實有點像。都是在看一種「流量」,只是一個流的是幣,一個流的是 Token。

AI 的 Token 經濟現在還很早期。定價策略在變、模型在迭代、開源和商用的邊界在模糊。但有一件事是確定的:理解這些定價結構,你就能比大多數人更準確地判斷 AI 產業的真實需求規模。

不管你是在開發 AI 應用、還是在評估 AI 相關的投資標的,Token 定價都是那個最底層、最誠實的訊號。

AI×交易 完整套裝 — 課程 + 指揮官手冊
$59 省 $4.90 · 中英雙語 · 終身更新
購買套裝 →