Cosmos 3 是什麼？跟前一代 Cosmos Predict、Reason、Policy 有何不同？

Cosmos 3 是 NVIDIA 發布的開放式全模態世界基礎模型，專為 Physical AI 設計。最大改變是把過去需分別部署的 Cosmos Predict（生成）、Transfer、Reason（推理）、Policy（動作）整合進單一架構，透過混合轉換器（MoT）讓影像生成、物理推理與動作輸出在同一模型內流通，降低系統複雜度。

Cosmos 3 Nano 和 Super 兩個版本該怎麼選？硬體需求是什麼？

Nano 為 8B 推理器加 8B 生成器，定位工作站級硬體如 RTX PRO 6000，適合個人開發者與中小型實驗。Super 擴充至 32B 加 32B，需 NVIDIA Hopper 或 Blackwell 高階 GPU，面向大規模合成資料生成與研究機構。一般開發者從 Nano 起步即可，需要大批量生成訓練資料才升級到 Super。

Cosmos 3 的雙流架構（自回歸 + 擴散）實際上怎麼運作？

模型有兩條並行序列：自回歸（AR）負責推理與理解，擴散（DM）負責迭代去噪生成。兩者使用獨立參數，但透過共享注意力機制互相交互，因此文字、影像、視訊、音訊與動作能在同一模型內流通。這是原生多模態設計，不是把多個專用模型拼接起來。

Cosmos 3 適合用在哪些場景？我的專案用得上嗎？

官方鎖定機器人操控、自動駕駛、倉儲安全與智慧空間四大場景。若你正在打造任何「感知→推理→輸出」的閉環應用，例如機械手臂控制、無人載具決策、倉儲監控系統，都值得評估。純文字對話或純圖像生成的應用，用一般 LLM 或 Diffusion 模型即可，不需要 Cosmos 3。

Cosmos 3 怎麼接入專案？支援 Diffusers 框架嗎？

模型已上架 Hugging Face，並整合至 Diffusers 框架的 Cosmos3OmniPipeline，可直接以 pipeline API 呼叫，不需自行刻多模態調度邏輯。建議先 clone Hugging Face 上的 Nano 版本在本地跑通範例，再依需求接入自己的資料流。原文連結在文末「來源原文」處。

NVIDIA 同步開源的六套合成資料集有什麼用？

六套資料集涵蓋機器人、物理模擬、駕駛、倉儲、空間推理及人體動作場景，全部以合成方式生成。對缺乏真實標註資料的開發者來說，這是低成本訓練 Physical AI 模型的入口，可直接用於微調 Cosmos 3 或當基準資料集驗證自家模型。資料集同樣在 Hugging Face 上可下載。

全模態單架構真的比多模型拼接更好嗎？有什麼限制？

整合架構的優勢是模態間共享注意力，推理上下文不會在模型間斷裂，部署也更單純。限制在於：單一模型體積大、微調時不易針對單一模態做精修；MoT 結構推論成本仍高於專用小模型。若你的場景只需單一模態，專用模型仍更省資源；需要跨模態推理時 Cosmos 3 才能展現整合價值。

NVIDIA Cosmos 3 開源首款全模態物理AI推理與行動模型

📰 重點摘要

NVIDIA 發布 Cosmos 3，一款針對「Physical AI」設計的開放式全模態世界基礎模型（World Foundation Model），最大特點是將影像生成、物理推理與動作輸出整合進單一架構，取代過去需分別部署的 Cosmos Predict、Transfer、Reason、Policy 等多個獨立模型。

Cosmos 3 採用混合轉換器（Mixture-of-Transformers，MoT）骨幹，透過兩條並行處理流運作：自回歸（AR）序列負責推理與理解，擴散（DM）序列負責迭代去噪生成，兩者雖使用獨立參數，但透過共享注意力機制互相交互，可同時處理文字、影像、視訊、音訊與動作等多種模態。

模型推出兩個版本：Cosmos 3 Nano 配備 8B 推理器加 8B 生成器，定位工作站級硬體（如 RTX PRO 6000）；Cosmos 3 Super 擴充至 32B 加 32B，面向 NVIDIA Hopper 與 Blackwell 高階 GPU，適合大規模合成資料生成與研究。應用場景涵蓋機器人操控、自動駕駛、倉儲安全與智慧空間。模型已上架 Hugging Face，整合至 Diffusers 框架的 Cosmos3OmniPipeline，並同步開源六套涵蓋機器人、物理模擬、駕駛、倉儲、空間推理及人體動作的合成訓練資料集。

💬 JudyAI Lab 觀點

NVIDIA將過去需分別部署的多個AI模型整合進單一架構，這個設計哲學的根本轉變，值得所有在打造AI系統的人認真關注。

Cosmos 3最值得拆解的不是引數規模，而是它的雙流架構設計——自回歸序列負責推理理解，擴散序列負責迭代生成，兩者透過共享注意力機制互動，讓文字、影像、視訊、音訊與動作在同一模型內流通。這代表業界正在從「多個專用模型拼接」走向「原生多模態單架構」，系統複雜度降低，潛在的推論效率也跟著改變。另一個值得注意的是，NVIDIA同步開源了六套合成訓練資料集，涵蓋機器人、駕駛、倉儲等場景——對沒有大量真實標註資料的開發者來說，這是訓練AI的新資源入口。

如果你正在設計任何「感知→推理→輸出」流程的AI應用，建議去HuggingFace翻一下Cosmos3OmniPipeline的架構檔案，看看這套整合邏輯能否給你的系統帶來新的設計靈感。

📅 原文資訊

發布時間：2026-06-01T04:44
來源原文：https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai

NVIDIA Cosmos 3 開源首款全模態物理AI推理與行動模型

📰 重點摘要

💬 JudyAI Lab 觀點

📅 原文資訊

🔗 延伸閱讀

參考來源

📰 重點摘要#

💬 JudyAI Lab 觀點#

📅 原文資訊#

🔗 延伸閱讀#

參考來源#

訂閱 AI 週報，每週精選新知：

📰 重點摘要

💬 JudyAI Lab 觀點

📅 原文資訊

🔗 延伸閱讀

參考來源