태스크 시드 합성 데이터 생성(Task-Seeded SDG)이란 무엇인가요?

NVIDIA가 Nemotron 학습용으로 개발한 5단계 프로세스로, lm-eval-harness의 약 70개 공개 태스크를 시드로 삼아 LLM이 동등한 능력의 QA 쌍을 대량 생성하고 추론 체인과 도메인 지식을 덧붙여 통합 필터링·패키징하는 방식입니다.

지식 집약형과 추론 집약형 시드는 어떻게 나뉘나요?

지식 집약형은 39개 태스크 약 300만 건으로 사실·도메인 지식을 다루고, 추론 집약형은 34개 태스크 약 150만 건으로 다단계 사고를 요구합니다. 두 시드를 명확히 분리한 뒤 후기 학습 단계에서 비율을 균형 있게 혼합하는 것이 핵심입니다.

이 방법으로 실제 성능이 얼마나 향상되었나요?

Nemotron-3 Nano의 100B 토큰 후기 학습에 적용한 결과 GPQA 30.8→41.9(+11.1), MMLU-Pro +1.8, 코드 +1.9, 상식 이해 +1.6으로 단일 지표가 아닌 지식·추론·코드 다차원이 동시에 향상되었습니다.

합성 데이터 생성 시 가장 흔히 저지르는 실수는 무엇인가요?

답변을 A/B/C/D 선택지 코드로 저장하면 모델이 위치를 암기해 의미 이해가 무너집니다. 반드시 의미론적 텍스트로 저장해야 하며, 시드 태스크가 단일 능력에 치우치면 특정 평가 스타일에 과적합되니 70개 수준의 폭넓은 커버리지가 필요합니다.

컨텍스트를 추가한 버전의 효과가 정말 큰가요?

에이블레이션 실험에서 컨텍스트 추가 버전이 GPQA-Diamond CoT 34.85→45.96(+11.11), AGIEval-en CoT +6.16, MMLU-Pro 5-shot +2.44로 압도적 우위를 보였습니다. 합성 데이터의 품질은 양보다 추론 체인과 도메인 지식 구조 설계가 결정합니다.

어떤 팀에게 이 방법이 적합한가요?

자체 소형·중형 모델을 후기 학습으로 튜닝하는 팀, 단일 벤치마크 과적합이 아닌 다차원 능력 향상을 노리는 연구·엔지니어링 팀에 적합합니다. 단순 프롬프트 엔지니어링이나 RAG만 운영하는 팀에는 비용 대비 효용이 낮습니다.

데이터셋 혼합 비율은 어떻게 조정해야 하나요?

지식·추론·코드 각 태스크 비율을 신중히 균형 잡아야 특정 능력만 튀고 나머지가 퇴화하는 현상을 막을 수 있습니다. 한 도메인이 과대표되면 다른 벤치마크 점수가 떨어지므로 후기 학습 전 소규모 에이블레이션으로 혼합비를 검증하는 것이 필수입니다.

Nemotron 사전학습용 태스크 시드 합성 데이터 생성

이 글은 JudyAI Lab의 AI 엔지니어링 시리즈 중 하나입니다 — 100편 이상 발행된 가이드, 60개국 5,000명 이상의 주간 독자가 읽는 콘텐츠로, AI 에이전트·트레이딩 시스템·콘텐츠 파이프라인의 실전 운영에 초점을 둡니다.

📰 핵심 요약

NVIDIA가 Nemotron 시리즈 모델을 위해 개발한 ‘태스크 시드 합성 데이터 생성’(Task-Seeded SDG) 5단계 프로세스: lm-eval-harness에서 약 70개 공개 태스크(약 700개 서브태스크)를 선정해 지식 집약형(39개 태스크, 약 300만 건)과 추론 집약형(34개 태스크, 약 150만 건) 두 종류의 시드로 분류하고, 대형 언어 모델로 내용은 다르지만 동등한 능력의 QA 쌍을 생성한 뒤, 추론 체인과 도메인 지식을 추가해 통합 필터링·패키징한다. 에이블레이션 실험에서 컨텍스트를 추가한 버전이 압도적으로 우세했다: GPQA-Diamond CoT 34.85→45.96(+11.11), AGIEval-en CoT +6.16, MMLU-Pro 5-shot +2.44. 이 합성 데이터를 Nemotron-3 Nano의 후기 학습(100B 토큰 규모)에 혼합한 결과, GPQA 30.8→41.9(+11.1), MMLU-Pro +1.8, 코드 능력 +1.9, 상식 이해 +1.6으로 다양한 차원이 동시에 향상되어, 폭넓은 태스크 커버리지가 단일 평가 스타일 과적합 방지에 효과적임을 검증했다. 핵심 설계 원칙: 답변은 선택지 코드가 아닌 의미론적 텍스트로 저장해야 하며, 데이터셋 혼합 시 각 태스크 비율을 신중히 균형 있게 조정해야 지식·추론·코드 능력이 전반적으로 안정적으로 향상된다.

💬 JudyAI Lab 관점

NVIDIA가 Nemotron 시리즈 모델을 위해 개발한 ‘태스크 시드 합성 데이터 생성’ 5단계 프로세스는, 구조화된 방식으로 학습 데이터를 대규모로 생산하는 방법을 최초로 구체적으로 시연해 소형 모델이 단일 태스크에서만 점수를 올리는 데 그치지 않고 다양한 평가 지표에서 동시에 성장할 수 있음을 보여주었다.

이 프로세스에서 가장 주목할 만한 점은 ‘지식 집약형’과 ‘추론 집약형’ 두 종류의 시드 태스크를 의도적으로 구분하고, 후기 학습에 혼합할 때 각 태스크 비율을 신중하게 균형 잡는다는 것이다. 에이블레이션 실험은 컨텍스트를 추가한 버전이 GPQA-Diamond CoT를 34.85에서 45.96으로 끌어올려 11퍼센트포인트 이상의 차이를 만들어냈음을 명확히 보여준다. 이는 합성 데이터의 품질이 생성량에만 달려 있는 것이 아니라 구조 설계에 더 크게 달려 있음을 시사한다 — 약 70개의 공개 태스크와 700개의 서브태스크를 폭넓게 커버하는 것이 모델이 특정 평가 스타일에 과도하게 적합되는 것을 방지하는 핵심이다. 코드 능력, 상식 이해, 추론 능력 등 여러 차원이 동시에 향상된 것은 태스크 커버리지의 넓이 자체가 과적합 방지를 위한 설계임을 증명한다. 또 하나 기억할 만한 세부 사항은 답변을 선택지 코드가 아닌 의미론적 텍스트로 저장해야 모델이 선택지 위치를 암기하는 것이 아니라 진정한 의미 이해를 학습한다는 것이다.

자신의 모델이나 애플리케이션을 위해 합성 학습 데이터를 보충하고 있다면, 먼저 이런 질문을 해볼 수 있다: 내 태스크 시드는 충분히 다양한가, 아니면 단일 능력 차원에만 집중하고 있는가?

📅 원문 정보

발행 시각: 2026-06-04T11:24
원문 링크: https://huggingface.co/blog/nvidia/task-seeded-sdg

Nemotron 사전학습용 태스크 시드 합성 데이터 생성

📰 핵심 요약

💬 JudyAI Lab 관점

📅 원문 정보

🔗 더 읽기

참고 자료

📰 핵심 요약#

💬 JudyAI Lab 관점#

📅 원문 정보#

🔗 더 읽기#

참고 자료#

매주 AI 다이제스트를 받아보세요:

📰 핵심 요약

💬 JudyAI Lab 관점

📅 원문 정보

🔗 더 읽기

참고 자료