Test-time Compute(추론 시 연산)란?
Test-time Compute는 “모델이 질문에 답할 때 더 많은 연산 자원을 써서 더 나은 답을 얻는” 전략으로, 2026년 AI 분야에서 가장 뜨거운 방향 중 하나입니다.
전통적 스케일링 법칙은 더 똑똑한 모델을 원하면 더 큰 모델을 더 많은 데이터로 학습하라고 말합니다. OpenAI o1 이후 업계는 두 번째 축을 발견했습니다 — 모델 크기를 고정한 채 “더 오래 사고"하게 해도 성능이 크게 오른다는 것입니다. Chain-of-thought, Best-of-N 샘플링(여러 답을 생성해 최고를 선택), Self-consistency, Tree-of-thoughts 등이 포함됩니다.
실전: Claude Extended Thinking이 대표적인 test-time compute 사례입니다. 같은 Opus 가중치이지만 thinking budget을 활성화하면 복잡한 추론 작업의 정확도가 크게 올라갑니다. 대가는 토큰 사용량이 몇 배로 증가하는 것입니다. 실무에서는 작업 난이도에 따라 thinking budget을 동적으로 조정하는 것이 핵심이며, 무작정 늘리는 것이 능사가 아닙니다.