一個會「看懂空間」的 AI 模型

大多數 AI 模型很擅長看圖、寫字、分析資料——但如果你問它「把左邊那個紅色杯子往右移 15 公分」,它大概會茫然。

這就是 Gemini Robotics-ER 1.6 要解決的問題。

Google 已正式透過 Gemini APIGoogle AI Studio 開放這個模型給開發者使用。ER 代表 Embodied Reasoning(具身推理)——讓 AI 不只看懂圖片,而是真正理解三維空間中物體的位置、關係、與可能的物理操作。

對開發者來說,這是個值得認真研究的新工具。


Robotics-ER 1.6 的核心能力

空間推理(Spatial Reasoning)

Robotics-ER 1.6 能夠從單張 RGB 圖像或相機串流中估算物體的相對位置與深度關係。這不是靠額外的深度感測器,而是模型本身習得的視覺空間理解能力。

實際意義:機器人不需要昂貴的 LiDAR 或立體相機,僅靠一般攝影機就能讓 AI 理解場景幾何。

操控規劃(Manipulation Planning)

給定一個目標(「把散落的積木整理成一排」),模型可以輸出一系列分解動作步驟,包括:

  • 抓取哪個物件
  • 從哪個角度接近
  • 移動到哪個目標位置
  • 釋放時機

這些輸出不是自然語言描述,而是可被機器人控制系統直接解析的結構化指令格式。

多模態輸入整合

Robotics-ER 1.6 可同時接受:

  • 視覺輸入(影像、影片幀)
  • 文字指令
  • 感測器數值(溫度、力度、加速度等)

並輸出整合了空間理解的推理結果,比單純視覺分類更接近真實場景需求。


開發者怎麼接 API?

快速起步

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
import google.generativeai as genai
from PIL import Image
import requests

genai.configure(api_key="YOUR_API_KEY")

# 使用 Robotics-ER 模型
model = genai.GenerativeModel("gemini-robotics-er-1.6")

# 載入場景圖片
image = Image.open("workspace_scene.jpg")

# 詢問空間推理問題
response = model.generate_content([
    image,
    "請識別桌面上所有物件,並描述它們的相對位置關係。"
    "若要將藍色方塊移到紅色圓形旁邊,需要哪些操作步驟?"
])

print(response.text)

機器人操控指令輸出

對於需要結構化輸出的場景,可以用 System Prompt 引導模型輸出 JSON 格式的動作序列:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
system_prompt = """
你是一個機器人操控規劃器。
收到圖像和目標指令後,輸出 JSON 格式的操作序列:
{
  "steps": [
    {"action": "move_to", "target": "blue_cube", "confidence": 0.95},
    {"action": "grasp", "grip_force": "medium"},
    {"action": "move_to", "position": {"x": 0.3, "y": 0.1, "z": 0.05}},
    {"action": "release"}
  ]
}
"""

model = genai.GenerativeModel(
    "gemini-robotics-er-1.6",
    system_instruction=system_prompt
)

即時串流場景

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
import cv2

cap = cv2.VideoCapture(0)  # 相機串流

while True:
    ret, frame = cap.read()
    if not ret:
        break

    # 每 N 幀送一次推理(根據場景動態頻率調整)
    if frame_count % 30 == 0:
        image = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))
        response = model.generate_content([
            image,
            "場景中有任何需要機器人介入的異常狀況嗎?"
        ])
        handle_response(response.text)

實際應用場景拆解

工業自動化:視覺導引抓取

傳統工業機器人靠固定座標抓取物件,物件位置偏移就失敗。Robotics-ER 可讓機器人「看懂」物件當下的實際位置,動態調整抓取路徑——對混線生產、不規則入料的場景特別有價值。

倉儲物流:柔性分揀

電商倉儲的貨品形狀、大小千變萬化。Robotics-ER 的操控規劃能力可以根據物件外型自動選擇最佳抓取策略,而不需為每種 SKU 單獨編程。

AR/MR 開發:空間標注

開發 Apple Vision Pro、Meta Quest 等 AR 設備的應用時,需要在真實空間中精確定位虛擬物件。Robotics-ER 的空間理解能力可以幫助 AR 應用更準確地理解使用者環境。

無人機導航:場景感知

室內無人機或低空自主飛行器,在 GPS 訊號不穩定時需要靠視覺理解場景。Robotics-ER 的空間推理能力可以做到「看到門就知道能不能過」這類自然語言式的環境理解。


和其他模型比,差在哪?

能力維度一般 Gemini ProGemini VisionRobotics-ER 1.6
圖像理解
文字推理
空間關係理解有限
深度估算
操控動作規劃
感測器資料整合

Robotics-ER 不是替換現有模型,而是為特定場景增加了新的維度——特別是需要理解「物理世界」的應用。


限制與注意事項

幾個開發者需要留意的點:

延遲問題:空間推理比一般文字推理計算量更大,API 回應時間相對較長。對於需要即時反饋(< 100ms)的控制迴路,目前仍需要在邊緣端搭配輕量模型。

目前仍為受限存取:並非所有開發者都能立即取得完整功能,部分進階能力(如操控指令輸出)需要透過申請流程。

準確度依賴訓練資料:模型在通用場景(桌面、倉儲、廚房)表現較佳;高度特殊化的工業場景仍需要微調或 few-shot 引導。

不直接控制硬體:Robotics-ER 輸出推理結果,實際的機器人控制需要搭配 ROS 2、機器人 SDK 或自定義控制器實作。


現在就能嘗試

  1. 前往 Google AI Studio
  2. 選擇模型 gemini-robotics-er-1.6
  3. 上傳一張包含物件的場景圖片
  4. 輸入空間推理或操控規劃問題

即使沒有機器人硬體,也可以用模擬圖片測試空間推理能力。


對開發者的意義

Gemini Robotics-ER 1.6 開放 API 的意義,在於把過去只有大型機器人公司才能負擔的 AI 視覺推理能力,以 API 的形式讓每個開發者都能存取。

不需要自己訓練空間感知模型,不需要雇用機器學習工程師,只要會呼叫 REST API,就能在你的應用裡加入「理解三維世界」的能力。

這不是科幻,是今天就能開始實驗的工具。


本文基於 Google 官方公告整理,技術細節與 API 介面以 Google AI Studio 文件為準。

延伸閱讀:Google 讓機器人學會「看懂世界」— Gemini Robotics-ER 1.6 開放開發者使用是本文的前篇,介紹了模型的核心能力和設計哲學;具身智能:AI Agent 從螢幕走進真實世界說明了這類技術在更廣泛機器人生態中的位置;AI Agent 開發環境建置指南補充了在自己環境中整合 AI API 的基礎設定。

AI 指揮官手冊 — 零程式背景的 OpenClaw AI 團隊建置實戰指南
$14.90 · 8 章完整內容 + 6 份模板
了解更多 →