📰 핵심 요약
NVIDIA가 Nemotron 시리즈 모델을 위해 개발한 ‘태스크 시드 합성 데이터 생성’(Task-Seeded SDG) 5단계 프로세스: lm-eval-harness에서 약 70개 공개 태스크(약 700개 서브태스크)를 선정해 지식 집약형(39개 태스크, 약 300만 건)과 추론 집약형(34개 태스크, 약 150만 건) 두 종류의 시드로 분류하고, 대형 언어 모델로 내용은 다르지만 동등한 능력의 QA 쌍을 생성한 뒤, 추론 체인과 도메인 지식을 추가해 통합 필터링·패키징한다. 에이블레이션 실험에서 컨텍스트를 추가한 버전이 압도적으로 우세했다: GPQA-Diamond CoT 34.85→45.96(+11.11), AGIEval-en CoT +6.16, MMLU-Pro 5-shot +2.44. 이 합성 데이터를 Nemotron-3 Nano의 후기 학습(100B 토큰 규모)에 혼합한 결과, GPQA 30.8→41.9(+11.1), MMLU-Pro +1.8, 코드 능력 +1.9, 상식 이해 +1.6으로 다양한 차원이 동시에 향상되어, 폭넓은 태스크 커버리지가 단일 평가 스타일 과적합 방지에 효과적임을 검증했다. 핵심 설계 원칙: 답변은 선택지 코드가 아닌 의미론적 텍스트로 저장해야 하며, 데이터셋 혼합 시 각 태스크 비율을 신중히 균형 있게 조정해야 지식·추론·코드 능력이 전반적으로 안정적으로 향상된다.
💬 JudyAI Lab 관점
NVIDIA가 Nemotron 시리즈 모델을 위해 개발한 ‘태스크 시드 합성 데이터 생성’ 5단계 프로세스는, 구조화된 방식으로 학습 데이터를 대규모로 생산하는 방법을 최초로 구체적으로 시연해 소형 모델이 단일 태스크에서만 점수를 올리는 데 그치지 않고 다양한 평가 지표에서 동시에 성장할 수 있음을 보여주었다.
이 프로세스에서 가장 주목할 만한 점은 ‘지식 집약형’과 ‘추론 집약형’ 두 종류의 시드 태스크를 의도적으로 구분하고, 후기 학습에 혼합할 때 각 태스크 비율을 신중하게 균형 잡는다는 것이다. 에이블레이션 실험은 컨텍스트를 추가한 버전이 GPQA-Diamond CoT를 34.85에서 45.96으로 끌어올려 11퍼센트포인트 이상의 차이를 만들어냈음을 명확히 보여준다. 이는 합성 데이터의 품질이 생성량에만 달려 있는 것이 아니라 구조 설계에 더 크게 달려 있음을 시사한다 — 약 70개의 공개 태스크와 700개의 서브태스크를 폭넓게 커버하는 것이 모델이 특정 평가 스타일에 과도하게 적합되는 것을 방지하는 핵심이다. 코드 능력, 상식 이해, 추론 능력 등 여러 차원이 동시에 향상된 것은 태스크 커버리지의 넓이 자체가 과적합 방지를 위한 설계임을 증명한다. 또 하나 기억할 만한 세부 사항은 답변을 선택지 코드가 아닌 의미론적 텍스트로 저장해야 모델이 선택지 위치를 암기하는 것이 아니라 진정한 의미 이해를 학습한다는 것이다.
자신의 모델이나 애플리케이션을 위해 합성 학습 데이터를 보충하고 있다면, 먼저 이런 질문을 해볼 수 있다: 내 태스크 시드는 충분히 다양한가, 아니면 단일 능력 차원에만 집중하고 있는가?
📅 원문 정보
- 발행 시각: 2026-06-04T11:24
- 원문 링크: https://huggingface.co/blog/nvidia/task-seeded-sdg