一個會「看懂空間」的 AI 模型
大多數 AI 模型很擅長看圖、寫字、分析資料——但如果你問它「把左邊那個紅色杯子往右移 15 公分」,它大概會茫然。
這就是 Gemini Robotics-ER 1.6 要解決的問題。
Google 已正式透過 Gemini API 和 Google AI Studio 開放這個模型給開發者使用。ER 代表 Embodied Reasoning(具身推理)——讓 AI 不只看懂圖片,而是真正理解三維空間中物體的位置、關係、與可能的物理操作。
對開發者來說,這是個值得認真研究的新工具。
Robotics-ER 1.6 的核心能力
空間推理(Spatial Reasoning)
Robotics-ER 1.6 能夠從單張 RGB 圖像或相機串流中估算物體的相對位置與深度關係。這不是靠額外的深度感測器,而是模型本身習得的視覺空間理解能力。
實際意義:機器人不需要昂貴的 LiDAR 或立體相機,僅靠一般攝影機就能讓 AI 理解場景幾何。
操控規劃(Manipulation Planning)
給定一個目標(「把散落的積木整理成一排」),模型可以輸出一系列分解動作步驟,包括:
- 抓取哪個物件
- 從哪個角度接近
- 移動到哪個目標位置
- 釋放時機
這些輸出不是自然語言描述,而是可被機器人控制系統直接解析的結構化指令格式。
多模態輸入整合
Robotics-ER 1.6 可同時接受:
- 視覺輸入(影像、影片幀)
- 文字指令
- 感測器數值(溫度、力度、加速度等)
並輸出整合了空間理解的推理結果,比單純視覺分類更接近真實場景需求。
開發者怎麼接 API?
快速起步
| |
機器人操控指令輸出
對於需要結構化輸出的場景,可以用 System Prompt 引導模型輸出 JSON 格式的動作序列:
| |
即時串流場景
| |
實際應用場景拆解
工業自動化:視覺導引抓取
傳統工業機器人靠固定座標抓取物件,物件位置偏移就失敗。Robotics-ER 可讓機器人「看懂」物件當下的實際位置,動態調整抓取路徑——對混線生產、不規則入料的場景特別有價值。
倉儲物流:柔性分揀
電商倉儲的貨品形狀、大小千變萬化。Robotics-ER 的操控規劃能力可以根據物件外型自動選擇最佳抓取策略,而不需為每種 SKU 單獨編程。
AR/MR 開發:空間標注
開發 Apple Vision Pro、Meta Quest 等 AR 設備的應用時,需要在真實空間中精確定位虛擬物件。Robotics-ER 的空間理解能力可以幫助 AR 應用更準確地理解使用者環境。
無人機導航:場景感知
室內無人機或低空自主飛行器,在 GPS 訊號不穩定時需要靠視覺理解場景。Robotics-ER 的空間推理能力可以做到「看到門就知道能不能過」這類自然語言式的環境理解。
和其他模型比,差在哪?
| 能力維度 | 一般 Gemini Pro | Gemini Vision | Robotics-ER 1.6 |
|---|---|---|---|
| 圖像理解 | ✅ | ✅ | ✅ |
| 文字推理 | ✅ | ✅ | ✅ |
| 空間關係理解 | ❌ | 有限 | ✅ |
| 深度估算 | ❌ | ❌ | ✅ |
| 操控動作規劃 | ❌ | ❌ | ✅ |
| 感測器資料整合 | ❌ | ❌ | ✅ |
Robotics-ER 不是替換現有模型,而是為特定場景增加了新的維度——特別是需要理解「物理世界」的應用。
限制與注意事項
幾個開發者需要留意的點:
延遲問題:空間推理比一般文字推理計算量更大,API 回應時間相對較長。對於需要即時反饋(< 100ms)的控制迴路,目前仍需要在邊緣端搭配輕量模型。
目前仍為受限存取:並非所有開發者都能立即取得完整功能,部分進階能力(如操控指令輸出)需要透過申請流程。
準確度依賴訓練資料:模型在通用場景(桌面、倉儲、廚房)表現較佳;高度特殊化的工業場景仍需要微調或 few-shot 引導。
不直接控制硬體:Robotics-ER 輸出推理結果,實際的機器人控制需要搭配 ROS 2、機器人 SDK 或自定義控制器實作。
現在就能嘗試
- 前往 Google AI Studio
- 選擇模型
gemini-robotics-er-1.6 - 上傳一張包含物件的場景圖片
- 輸入空間推理或操控規劃問題
即使沒有機器人硬體,也可以用模擬圖片測試空間推理能力。
對開發者的意義
Gemini Robotics-ER 1.6 開放 API 的意義,在於把過去只有大型機器人公司才能負擔的 AI 視覺推理能力,以 API 的形式讓每個開發者都能存取。
不需要自己訓練空間感知模型,不需要雇用機器學習工程師,只要會呼叫 REST API,就能在你的應用裡加入「理解三維世界」的能力。
這不是科幻,是今天就能開始實驗的工具。
本文基於 Google 官方公告整理,技術細節與 API 介面以 Google AI Studio 文件為準。
延伸閱讀:Google 讓機器人學會「看懂世界」— Gemini Robotics-ER 1.6 開放開發者使用是本文的前篇,介紹了模型的核心能力和設計哲學;具身智能:AI Agent 從螢幕走進真實世界說明了這類技術在更廣泛機器人生態中的位置;AI Agent 開發環境建置指南補充了在自己環境中整合 AI API 的基礎設定。