機器人最缺的不是手腳,是「腦子」
如果你有碰過機器人開發,你一定知道這個痛點:讓機器人做一個動作不難,難的是讓它理解自己在做什麼。
拿個杯子?簡單。但拿「桌上從左邊數第二個杯子」?就開始卡了。拿完之後確認「我真的拿到了、沒有打翻其他東西」?這更難。
2026 年 4 月 14 日,Google DeepMind 發布了 Gemini Robotics-ER 1.6 — 一個專為機器人設計的「具身推理」(Embodied Reasoning)模型,而且直接開放給開發者使用。
這不是又一個研究 demo。它已經在 Gemini API 和 Google AI Studio 上線了。
什麼是「具身推理」?
先解釋這個名詞,因為它是這個模型的核心定位。
一般的 AI 推理(text reasoning)是處理文字:解邏輯題、寫程式、摘要文件。
具身推理不一樣。它假設你有一個身體 — 有攝影機、有機械臂、有關節、有重力、有摩擦力,而且眼前的世界永遠不會跟預期完全一樣。
具體來說,具身推理需要做到這些事:
- 從影像理解 3D 空間 — 不只是辨識物件,而是知道東西在哪裡、多大、彼此什麼關係
- 跨視角追蹤 — 攝影機換角度了,場景變了,但「世界」沒有變
- 帶約束條件的行動規劃 — 「如果先開這扇門,就碰不到後面那個把手」
- 用視覺回饋確認進度 — 不只是「我做了動作」,而是「結果真的對了嗎」
- 處理模糊情境 — 三個一模一樣的箱子,標籤被遮住一半,到底拿哪個
所以 Google 把這個模型叫 Embodied Reasoning,意思是:它不只是視覺模型,也不只是語言模型,而是一個連接感知與行動的推理層。
Robotics-ER 1.6 到底升級了什麼?
這次不是小版本更新。Google 明確表示它在幾個關鍵能力上大幅超越了前代 Robotics-ER 1.5 和通用版 Gemini 3.0 Flash。
1. 更強的空間推理
聽起來很基礎,但這恰恰是機器人在現場最容易失敗的地方:
- 精確指向 — 「指出我說的那個工具」,不是最顯眼的那個
- 正確計數 — 即使物件重疊也不會數錯
- 相對關係 — 「哪個在左邊?哪個比較小?」
- 約束推理 — 「指出所有小到可以放進藍色杯子裡的物件」
1.6 版可以用「指向」(pointing)作為中間推理步驟。比如先標記影像中的物件,再用程式碼做數學運算來估算距離和比例。不是瞎猜,是有步驟的推理。
2. 多視角理解
現代機器人通常有多個攝影機 — 頭頂一個、手腕一個,甚至更多。問題是:
- 物件在攝影機 A 看得到,攝影機 B 看不到
- 物件剛才還在,現在被遮住了
- 機器人轉了手腕之後,需要推斷東西跑去哪了
Robotics-ER 1.6 能把多個攝影機的畫面整合成一致的場景理解。這聽起來理所當然,但對機器人來說是從「經常卡住」到「大部分時候能繼續做」的差別。
3. 任務規劃
機器人的任務規劃不是「列一張清單」,而是「列一張在真實世界中不會崩潰的清單」。
就拿「把杯子放進洗碗機」這個簡單任務來說:洗碗機開了嗎?架子上有空間嗎?杯子要不要轉方向才放得進去?放的時候會不會撞倒其他東西?
1.6 版更能拆解這類問題,而且能感知物理約束 — 不只是理解指令的字面意思。
4. 成功偵測(這個最關鍵)
這是很多人忽略但極度重要的能力:機器人怎麼知道任務完成了?
區別在這裡:
- 「我把夾爪移動到把手的位置了」 vs.
- 「我真的握住了把手,門確實被打開了」
沒有可靠的成功偵測,你就需要寫大量的自訂驗證邏輯、加感測器、加規則引擎。Robotics-ER 1.6 在這方面的提升,直接減少了「機器人以為自己做完了其實沒有」的情況。
更重要的是,成功偵測是長任務鏈的基礎。如果步驟 3 的結果不確定,步驟 9 就注定失敗。
5. 儀表讀取(全新能力)
這是 Google 跟 Boston Dynamics 合作發現的需求,也是這次最實際的新功能。
你可能覺得讀儀表就是 OCR,但其實比 OCR 難得多:
- 壓力表的指針可能在奇怪角度
- 液位計有視差失真
- 燈光反射、灰塵、凝結水
- 不同刻度、不同單位、有些表有多根指針代表不同小數位
Robotics-ER 1.6 用 agentic vision(結合視覺推理和程式碼執行)來處理這些問題。它會先放大影像看細節,用 pointing 標記刻度,再用程式碼計算比例和間距。
效果有多好?根據 Google 的 benchmark:
| 模型 | 儀表讀取成功率 |
|---|---|
| Gemini Robotics-ER 1.5 | 23% |
| Gemini 3.0 Flash | 67% |
| Robotics-ER 1.6 | 86% |
| Robotics-ER 1.6 + agentic vision | 93% |
從 23% 跳到 93%,這不是微調,是質變。
安全性:目前最安全的機器人模型
Google 強調 Robotics-ER 1.6 是他們「迄今最安全的機器人模型」。具體來說:
- 在對抗性空間推理任務中,對 Gemini 安全政策的遵循度最高
- 能更好地判斷物理安全約束 — 比如「不處理液體」、「不拿超過 20 公斤的東西」
- 在基於真實傷害報告的安全測試中(ASIMOV benchmark),比 Gemini 3.0 Flash 提高了 6%(文字場景)和 10%(影片場景)
但這邊要保持清醒:模型不等於安全系統。實際部署機器人,你還是需要速度限制、力道限制、地理圍欄、碰撞偵測、緊急停機按鈕、人類覆核。模型能降低錯誤率,不能消除錯誤率。
開發者怎麼用?
已經開放了。三個入口:
- Gemini API — 直接呼叫模型,整合進你的機器人控制迴圈
- Google AI Studio — 線上測試和互動(模型 ID:
gemini-robotics-er-1.6-preview) - GitHub Colab — Google 提供了範例 notebook,包含模型設定和 prompt 範例
整合的基本流程:
- 餵入影像(可以是多視角畫面)
- 請求結構化輸出(規劃、物件參考、成功判斷)
- 把輸出接進機器人控制迴圈
- 加上安全閘門和驗證機制
值得注意的是,這個模型能原生呼叫工具 — 包括 Google Search 查資訊、VLA(視覺-語言-動作模型)執行動作、或任何你自定義的第三方函式。換句話說,它被設計成機器人的高層推理中樞,不只是一個視覺辨識模組。
哪些場景最先受益?
講完技術,聊聊實際應用。最先能用上的場景大概是這些:
工業巡檢
讓機器人在工廠裡巡邏、讀取壓力表和溫度計、記錄數據、標記異常。很多工廠還沒有全面數位化,儀表讀取能力直接跳過了「先裝 IoT 感測器」的門檻。Boston Dynamics 的 Spot 機器人已經在用這個能力了。
倉儲物流
混合 SKU 場景下的例外處理 — 物品歪了、標籤模糊、數量不對。空間推理 + 成功偵測 = 更少的人工介入。
實驗室自動化
精確計數、正確擺放、讀取顯示器讀數、確認實驗步驟完成。對製藥和生技公司來說,這些都是合規需求。
設施維運
日常巡檢、開關面板、記錄設備狀態。不是高難度操作,但需要感知和判斷,正好是這個模型擅長的。
零售後場
清點庫存、核對標籤、在雜亂環境中找到特定物品。
共同的主題不是「高難度靈巧操作」,而是有變化的重複性工作流程 — 感知和驗證才是真正的痛點。
這件事為什麼重要?一個開發者的觀點
我們團隊每天都在跟 AI agent 打交道 — 分配任務、監控執行、驗證結果。看到 Gemini Robotics-ER 1.6 的時候,第一個反應不是「又一個新模型」,而是:Google 正在把「agent」的概念從軟體搬到硬體。
想想看,我們做軟體 agent 要處理的問題 — 理解指令、規劃步驟、執行後驗證、處理異常 — 機器人全部都有,而且更難,因為物理世界不能 ctrl+z。
Robotics-ER 1.6 其實在做的事情,就是把我們在軟體 agent 領域累積的推理能力,灌到一個能理解物理世界的模型裡。
三個值得關注的方向:
第一,機器人從「程式化行為」走向「自主行為」。 不是機器人愛幹嘛幹嘛,而是它能接收目標、制定計劃、執行中自我檢查、出問題時調整。成功偵測就是這個轉變的核心。
第二,模型家族化。 Gemini 不再只是一個聊天模型。它正在變成一個跨模態、跨環境的模型家族 — 文字、影像、工具使用、現在加上具身推理。對開發者來說,這意味著你可以在一個生態系裡處理從文字對話到機器人控制的完整鏈路。
第三,「夠好」的門檻在降低。 以前要讓機器人在新環境中運作,需要大量的客製化工程。如果通用的具身推理模型能處理 80% 的場景,剩下 20% 才需要針對性解決 — 這會讓更多團隊有能力做機器人應用。
保持冷靜的幾個提醒
講完好的,也要講實際的限制:
Benchmark 不等於你的工廠。 Google 的數據在他們的測試環境裡很亮眼。但你的場景有你的攝影機角度、你的光線條件、你的物件種類、你的容錯標準。
「推理」不等於「可靠」。 模型可以漂亮地解釋一個計劃,然後在第二步就失敗。尤其是感知不確定的時候。
儀表讀取不等於儀表化。 在很多場景中,你仍然會優先用直接的感測器和遙測數據。機器人讀表通常是過渡方案,不是終極狀態。
長尾效應很殘酷。 反光表面、透明物體、纜線、袋子、做出不可預測行為的人類。如果你的 ROI 依賴 99.9% 的可靠度,你還是要花大量工程時間。
結論
Gemini Robotics-ER 1.6 代表的不是「又一個更強的視覺模型」,而是 Google 對機器人 AI 下一步的判斷:機器人需要的不是更好的馬達或更好的夾爪,而是迴圈中更好的推理能力。
看、規劃、行動、確認、調整。一遍又一遍。
儀表讀取這個功能就是最好的說明 — 它非常實際、有點無聊、卻正好是讓機器人在真實工廠裡派上用場的那種能力。
對於正在做機器人應用的開發者:去 Google AI Studio 試試,跑一下 Colab 範例,然後在你自己的環境裡測。那才是真相浮現的地方。
延伸閱讀:具身智能:AI Agent 從螢幕走進真實世界說明了機器人 AI 的更廣泛趨勢背景;Google Gemini Robotics-ER 1.6 開放 API — 開發者現在能做什麼?提供了更深入的 API 使用指南;Tether QVAC Fabric:讓你用手機訓練大型語言模型探討了邊緣 AI 推理的另一個方向。
參考資料: