Distillation（模型蒸餾）

Distillation 是「用大模型教小模型」的技術：讓 SLM 學習 LLM 的輸出分布，得到一個體積小但效果接近大模型的版本。產業意義：Claude Haiku 是從 Opus 蒸餾，Gemini Flash 從 Pro 蒸餾，這是 SLM 又便宜又準的核心秘密。實戰：DeepSeek R1 蒸餾版讓 7B 小模型在數學題接近 GPT-4o，徹底翻轉「小模型只能做弱事」的印象 — Judy AI Lab AI 詞彙庫

core beginner

什麼是 Distillation（模型蒸餾）？

Distillation 是「用大模型教小模型」的技術。流程：先準備一個高品質的大模型（teacher），讓它對大量問題產生回答；再訓練一個小模型（student）去模仿 teacher 的輸出分布。結果是 student 模型體積小、推理便宜，但效果接近 teacher。

產業意義很大：Claude Haiku 從 Opus 蒸餾、Gemini Flash 從 Pro 蒸餾、GPT-4o-mini 從 GPT-4o 蒸餾——這是現代 SLM「又便宜又準」的核心秘密。DeepSeek R1 釋出蒸餾版後，讓 Llama 7B、Qwen 1.5B 等小模型在數學題接近 GPT-4o，徹底翻轉「小模型只能做弱事」的印象。對自架團隊來說，蒸餾是把 API 成本壓到 1/20 的關鍵技術。

什麼是 Distillation（模型蒸餾）？#

相關術語

訂閱 AI 週報，每週精選新知：

什麼是 Distillation（模型蒸餾）？