什麼是任務種子合成資料生成（Task-Seeded SDG）？

NVIDIA 為 Nemotron 系列開發的五階段資料生成流程，從 lm-eval-harness 挑出約 70 個公開任務（約 700 子任務）做為種子，用大型語言模型生成內容不同但能力相近的問答對，再附加推理鏈與領域知識後統一過濾打包，用於模型後期訓練。

知識密集型與推理密集型種子任務的差別是什麼？

知識密集型涵蓋 39 個任務、約 300 萬筆資料，著重事實與領域知識回憶；推理密集型涵蓋 34 個任務、約 150 萬筆資料，著重邏輯推導與多步思考。兩類分開處理是為了在混合訓練時平衡能力，避免模型偏向單一面向。

Task-Seeded SDG 對 Nemotron-3 Nano 帶來多少提升？

混入 100B token 量級的後期訓練後，GPQA 從 30.8 躍升到 41.9（+11.1），MMLU-Pro +1.8，程式碼能力 +1.9，常識理解 +1.6。消融實驗中加入上下文版本讓 GPQA-Diamond CoT 從 34.85 提升至 45.96，差距超過 11 個百分點。

為什麼合成資料的答案要存語意文字而非選項代號？

如果答案只存「A、B、C、D」這類選項代號，模型容易記住選項位置而非真正理解內容，換個題目順序就失準。儲存語意文字（完整答案敘述）能逼模型學到概念本身，泛化能力更強，這也是 NVIDIA 在 Nemotron 流程中特別強調的設計原則。

做合成資料常犯的錯誤是什麼？

最常見的錯誤是只押注單一任務類型刷分，或不平衡各任務比例導致過擬合到特定評測風格。NVIDIA 的實驗顯示，廣泛覆蓋 70 個任務、700 子任務並謹慎平衡知識／推理比例，才能讓多維能力同步成長，否則容易在 GPQA 漲分但程式碼或常識倒退。

Task-Seeded SDG 跟一般 LLM 蒸餾資料有什麼不同？

一般蒸餾常從單一強模型大量生成同類問答，易過擬合到生成器風格。Task-Seeded SDG 改以 lm-eval-harness 既有評測任務為種子，強制涵蓋知識／推理／程式碼／常識多維度，再加推理鏈與領域知識註解，本質上是「以評測廣度反推資料結構」的方法論。

我自己訓模型或微調，能套用這套流程嗎？

可以，但要先盤點任務種子是否夠多元，不要只押單一能力。建議從 lm-eval-harness 選 20-50 個與目標場景相關的任務當種子，分知識／推理兩桶生成，答案存語意文字，混合時控制比例。即使資料量不到百萬筆，結構化設計仍比無腦灌量有效。

以任務為種子的合成問答資料生成技術用於 Nemotron 預訓練

📰 重點摘要

NVIDIA 針對 Nemotron 系列模型開發出「任務種子合成資料生成」（Task-Seeded SDG）五階段流程：從 lm-eval-harness 選取約 70 個公開任務（約 700 子任務），分為知識密集型（39 任務、約 300 萬筆）與推理密集型（34 任務、約 150 萬筆）兩類種子，以大型語言模型生成內容不同但能力相近的問答對，再附加推理鏈與領域知識後統一過濾打包。消融實驗中，加入上下文的版本大幅勝出：GPQA-Diamond CoT 從 34.85 提升至 45.96（+11.11），AGIEval-en CoT +6.16，MMLU-Pro 5-shot +2.44。將此合成資料混入 Nemotron-3 Nano 的後期訓練（100B token 量級），最終 GPQA 從 30.8 躍升至 41.9（+11.1），MMLU-Pro +1.8，程式碼能力 +1.9，常識理解 +1.6，多項維度同步成長，驗證廣泛任務覆蓋可有效防止過擬合至單一評測風格。關鍵設計原則包括：答案應儲存語意文字而非選項代號，且混合資料集時須謹慎平衡各任務比例，確保知識、推理與程式能力全面穩定提升。

💬 JudyAI Lab 觀點

NVIDIA為Nemotron系列模型開發的「任務種子合成資料生成」五階段流程，首度具體示範瞭如何用結構化方法規模化生產訓練資料，讓小模型在多項評測同步成長，而非只在單一任務上刷分。

這個流程最值得我們觀察的，是它刻意區分「知識密集型」與「推理密集型」兩類種子任務，並在混入後期訓練時謹慎平衡各任務比例。消融實驗清楚顯示，加入上下文的版本讓GPQA-Diamond CoT從34.85提升至45.96，差距超過11個百分點。這告訴我們：合成資料的品質不只靠生成量，更靠結構設計——廣泛覆蓋約70個公開任務、700個子任務，正是防止模型過度擬合到特定評測風格的關鍵。程式碼能力、常識理解、推理能力多個維度同步提升，說明任務覆蓋的廣度本身就是一種防過擬合的設計。另一個值得記住的細節是：答案應儲存語意文字而非選項代號，讓模型真正學到語意理解，而非選項位置的記憶。

如果你正在為自己的模型或應用補充合成訓練資料，可以先問一句：我的任務種子夠多元嗎，還是隻押注在單一能力維度上？

📅 原文資訊

發布時間：2026-06-04T11:24
來源原文：https://huggingface.co/blog/nvidia/task-seeded-sdg

以任務為種子的合成問答資料生成技術用於 Nemotron 預訓練

📰 重點摘要

💬 JudyAI Lab 觀點

📅 原文資訊

🔗 延伸閱讀

參考來源

📰 重點摘要#

💬 JudyAI Lab 觀點#

📅 原文資訊#

🔗 延伸閱讀#

參考來源#

訂閱 AI 週報，每週精選新知：

📰 重點摘要

💬 JudyAI Lab 觀點

📅 原文資訊

🔗 延伸閱讀

參考來源