AI 뉴스 속보: NVIDIA가 Nemotron 시리즈 모델을 위해 개발한 ‘태스크 시드 합성 데이터 생성’(Task-Seeded SDG) 5단계 프로세스: lm-eval-harness에서 약 70개 공개 태스크(약 700개 서브태스크)를 선정해 지식 집약형(39개 태스크, 약 300만 건)과 추론 집약형(34개 태스크, 약 150만 건) 두 종류의 시드로 분류하고, 대형 언어 모델로 내용은 다르지만 동등한 능력의 QA 쌍을 생성한 뒤 추론 체인과 도메인 지식을 추가해 통합 필터링·패키징한다. 에이블레이션 실험에서 컨텍스트를 추가한 버전이 압도적으로 우세했다: GPQA-Diamond CoT 34.85→45.96(+11.11), AGIEval-en CoT +6.16, MMLU-Pro 5-shot +2.44. 이 합성 데이터를 Nemotron-3 Nano의 후기 학습(100B 토큰 규모)에 혼합한 결과, GPQA 30.8→41.9(+11.1), MMLU-Pro +1.8, 코드 능력 +1.9, 상식 이해 +1.6으로 다양한 차원이 동시에 향상되어, 폭넓은 태스크 커버리지가 단일 평가 스타일 과적합 방지에 효과적임을 검증했다. 핵심 설계 원칙: 답변은 선택지 코드가 아닌 의미론적 텍스트로 저장해야 하며, 데이터셋 혼합 시 각 태스크 비율을 신중히 균형 있게 조정해야 지식·추론·코드 능력이 전반적으로 안정적으로 향상된다.