什麼是 Distillation(模型蒸餾)?
Distillation 是「用大模型教小模型」的技術。流程:先準備一個高品質的大模型(teacher),讓它對大量問題產生回答;再訓練一個小模型(student)去模仿 teacher 的輸出分布。結果是 student 模型體積小、推理便宜,但效果接近 teacher。
產業意義很大:Claude Haiku 從 Opus 蒸餾、Gemini Flash 從 Pro 蒸餾、GPT-4o-mini 從 GPT-4o 蒸餾——這是現代 SLM「又便宜又準」的核心秘密。DeepSeek R1 釋出蒸餾版後,讓 Llama 7B、Qwen 1.5B 等小模型在數學題接近 GPT-4o,徹底翻轉「小模型只能做弱事」的印象。對自架團隊來說,蒸餾是把 API 成本壓到 1/20 的關鍵技術。