Distillation(모델 증류)이란?
Distillation은 “큰 모델로 작은 모델을 가르치는” 기술입니다. 워크플로: 고품질 teacher 모델을 준비하고 대량의 프롬프트에 대해 답을 생성하게 한 뒤, 더 작은 student 모델이 teacher의 출력 분포를 모방하도록 학습시킵니다. 결과는 작고 추론이 저렴하지만 teacher에 가까운 성능을 보이는 모델입니다.
산업적 의미가 큽니다: Claude Haiku는 Opus에서, Gemini Flash는 Pro에서, GPT-4o-mini는 GPT-4o에서 증류된 결과입니다 — 현대 SLM이 “저렴하면서 정확한” 비결입니다. DeepSeek가 R1 증류 버전을 공개하면서 Llama 7B, Qwen 1.5B 같은 소형 모델이 수학 벤치마크에서 GPT-4o에 근접하며 “소형 모델은 약한 작업만 가능하다"는 통념을 뒤집었습니다. 자체 호스팅 팀에게 증류는 API 비용을 1/20로 낮추는 핵심 레버입니다.