什麼是 Token(詞元)?

Token 是 LLM 處理文字的最小單位,可能是一個字、半個字、一個常見詞或標點符號。模型不是按「字」算,而是按 token 算費、算長度、算速度。Anthropic、OpenAI、Google API 的計費單位都是 token。

粗略換算:

  • 英文 1 token ≈ 0.75 個英文單字
  • 中文 1 個漢字 ≈ 1~2 個 tokens(依模型不同)
  • 程式碼通常每行 5-15 tokens

實戰意義:估 API 成本、估 Context Window 用量、估回應速度,全部要懂 token。例如 Claude Opus 4.x 的 1M context window 大約能塞 75 萬個英文字、50 萬個中文字。我們 Blog 一篇 3000 字中文文章大約 4500 tokens,整個詞彙庫 75 詞約 8 萬 tokens——這些數字決定了我們能怎麼設計 RAG 系統與 Prompt 結構。