Gemini Robotics-ER 1.6 是什麼？

這是 Google 推出的多模態 AI 模型，專門針對機器人和空間推理設計，具備理解 3D 環境、規劃物理操作序列的能力，已透過 Gemini API 向開發者開放。

ER 代表什麼意思？

ER 代表 Embodied Reasoning（具身推理），指 AI 能夠理解並推理現實世界中的物理空間、物體屬性與操控動作，而不只是處理文字或圖片。

開發者如何取得 Gemini Robotics-ER 1.6 的存取權限？

可透過 Google AI Studio 申請早期存取，或使用 Gemini API（gemini-robotics-er-1.6 模型 ID）直接整合。部分功能仍在受限測試階段。

Gemini Robotics-ER 與一般 Gemini 模型有何不同？

Robotics-ER 額外具備空間推理、深度估算、操控規劃等能力，可理解 3D 場景並輸出機器人可執行的動作序列，一般 Gemini 模型不具備這些特性。

Gemini Robotics-ER 1.6 適合哪些應用場景？

工業機器人視覺導引、倉儲自動化、AR 空間標注、無人機路徑規劃，以及任何需要理解 3D 空間關係的應用。

Google Gemini Robotics-ER 1.6 開放 API — 開發者現在能做什麼？

一個會「看懂空間」的 AI 模型

大多數 AI 模型很擅長看圖、寫字、分析資料——但如果你問它「把左邊那個紅色杯子往右移 15 公分」，它大概會茫然。

這就是 Gemini Robotics-ER 1.6 要解決的問題。

Google 已正式透過 Gemini API 和 Google AI Studio 開放這個模型給開發者使用。ER 代表 Embodied Reasoning（具身推理）——讓 AI 不只看懂圖片，而是真正理解三維空間中物體的位置、關係、與可能的物理操作。

對開發者來說，這是個值得認真研究的新工具。

Robotics-ER 1.6 的核心能力

空間推理（Spatial Reasoning）

Robotics-ER 1.6 能夠從單張 RGB 圖像或相機串流中估算物體的相對位置與深度關係。這不是靠額外的深度感測器，而是模型本身習得的視覺空間理解能力。

實際意義：機器人不需要昂貴的 LiDAR 或立體相機，僅靠一般攝影機就能讓 AI 理解場景幾何。

操控規劃（Manipulation Planning）

給定一個目標（「把散落的積木整理成一排」），模型可以輸出一系列分解動作步驟，包括：

抓取哪個物件
從哪個角度接近
移動到哪個目標位置
釋放時機

這些輸出不是自然語言描述，而是可被機器人控制系統直接解析的結構化指令格式。

多模態輸入整合

Robotics-ER 1.6 可同時接受：

視覺輸入（影像、影片幀）
文字指令
感測器數值（溫度、力度、加速度等）

並輸出整合了空間理解的推理結果，比單純視覺分類更接近真實場景需求。

開發者怎麼接 API？

快速起步

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
import google.generativeai as genai
from PIL import Image
import requests

genai.configure(api_key="YOUR_API_KEY")

# 使用 Robotics-ER 模型
model = genai.GenerativeModel("gemini-robotics-er-1.6")

# 載入場景圖片
image = Image.open("workspace_scene.jpg")

# 詢問空間推理問題
response = model.generate_content([
    image,
    "請識別桌面上所有物件，並描述它們的相對位置關係。"
    "若要將藍色方塊移到紅色圓形旁邊，需要哪些操作步驟？"
])

print(response.text)

機器人操控指令輸出

對於需要結構化輸出的場景，可以用 System Prompt 引導模型輸出 JSON 格式的動作序列：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
system_prompt = """
你是一個機器人操控規劃器。
收到圖像和目標指令後，輸出 JSON 格式的操作序列：
{
  "steps": [
    {"action": "move_to", "target": "blue_cube", "confidence": 0.95},
    {"action": "grasp", "grip_force": "medium"},
    {"action": "move_to", "position": {"x": 0.3, "y": 0.1, "z": 0.05}},
    {"action": "release"}
  ]
}
"""

model = genai.GenerativeModel(
    "gemini-robotics-er-1.6",
    system_instruction=system_prompt
)

即時串流場景

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
import cv2

cap = cv2.VideoCapture(0)  # 相機串流

while True:
    ret, frame = cap.read()
    if not ret:
        break

    # 每 N 幀送一次推理（根據場景動態頻率調整）
    if frame_count % 30 == 0:
        image = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))
        response = model.generate_content([
            image,
            "場景中有任何需要機器人介入的異常狀況嗎？"
        ])
        handle_response(response.text)

實際應用場景拆解

工業自動化：視覺導引抓取

傳統工業機器人靠固定座標抓取物件，物件位置偏移就失敗。Robotics-ER 可讓機器人「看懂」物件當下的實際位置，動態調整抓取路徑——對混線生產、不規則入料的場景特別有價值。

倉儲物流：柔性分揀

電商倉儲的貨品形狀、大小千變萬化。Robotics-ER 的操控規劃能力可以根據物件外型自動選擇最佳抓取策略，而不需為每種 SKU 單獨編程。

AR/MR 開發：空間標注

開發 Apple Vision Pro、Meta Quest 等 AR 設備的應用時，需要在真實空間中精確定位虛擬物件。Robotics-ER 的空間理解能力可以幫助 AR 應用更準確地理解使用者環境。

無人機導航：場景感知

室內無人機或低空自主飛行器，在 GPS 訊號不穩定時需要靠視覺理解場景。Robotics-ER 的空間推理能力可以做到「看到門就知道能不能過」這類自然語言式的環境理解。

和其他模型比，差在哪？

能力維度	一般 Gemini Pro	Gemini Vision	Robotics-ER 1.6
圖像理解	✅	✅	✅
文字推理	✅	✅	✅
空間關係理解	❌	有限	✅
深度估算	❌	❌	✅
操控動作規劃	❌	❌	✅
感測器資料整合	❌	❌	✅

Robotics-ER 不是替換現有模型，而是為特定場景增加了新的維度——特別是需要理解「物理世界」的應用。

限制與注意事項

幾個開發者需要留意的點：

延遲問題：空間推理比一般文字推理計算量更大，API 回應時間相對較長。對於需要即時反饋（< 100ms）的控制迴路，目前仍需要在邊緣端搭配輕量模型。

目前仍為受限存取：並非所有開發者都能立即取得完整功能，部分進階能力（如操控指令輸出）需要透過申請流程。

準確度依賴訓練資料：模型在通用場景（桌面、倉儲、廚房）表現較佳；高度特殊化的工業場景仍需要微調或 few-shot 引導。

不直接控制硬體：Robotics-ER 輸出推理結果，實際的機器人控制需要搭配 ROS 2、機器人 SDK 或自定義控制器實作。

現在就能嘗試

前往 Google AI Studio
選擇模型 gemini-robotics-er-1.6
上傳一張包含物件的場景圖片
輸入空間推理或操控規劃問題

即使沒有機器人硬體，也可以用模擬圖片測試空間推理能力。

對開發者的意義

Gemini Robotics-ER 1.6 開放 API 的意義，在於把過去只有大型機器人公司才能負擔的 AI 視覺推理能力，以 API 的形式讓每個開發者都能存取。

不需要自己訓練空間感知模型，不需要雇用機器學習工程師，只要會呼叫 REST API，就能在你的應用裡加入「理解三維世界」的能力。

這不是科幻，是今天就能開始實驗的工具。

本文基於 Google 官方公告整理，技術細節與 API 介面以 Google AI Studio 文件為準。

延伸閱讀：Google 讓機器人學會「看懂世界」— Gemini Robotics-ER 1.6 開放開發者使用是本文的前篇，介紹了模型的核心能力和設計哲學；具身智能：AI Agent 從螢幕走進真實世界說明了這類技術在更廣泛機器人生態中的位置；AI Agent 開發環境建置指南補充了在自己環境中整合 AI API 的基礎設定。

AI 指揮官手冊 — 零程式背景的 OpenClaw AI 團隊建置實戰指南
$14.90 · 8 章完整內容 + 6 份模板
了解更多 →

一個會「看懂空間」的 AI 模型#

Robotics-ER 1.6 的核心能力#

空間推理（Spatial Reasoning）#

操控規劃（Manipulation Planning）#

多模態輸入整合#

開發者怎麼接 API？#

快速起步#

機器人操控指令輸出#

即時串流場景#

實際應用場景拆解#

工業自動化：視覺導引抓取#

倉儲物流：柔性分揀#

AR/MR 開發：空間標注#

無人機導航：場景感知#

和其他模型比，差在哪？#

限制與注意事項#

現在就能嘗試#

對開發者的意義#

新文章直接寄到你的信箱：