“공간을 이해하는” AI 모델

대부분의 AI 모델은 이미지 분석, 텍스트 작성, 데이터 분석에 뛰어 납니다 — 하지만 “왼쪽에 있는 빨간 컵을 15cm 오른쪽으로 옮겨줘"라고 물어보면 아마 혼란스러워할でしょう.

바로 이것이 Gemini Robotics-ER 1.6이 해결하도록 설계된 문제입니다.

구글은 이 모델을 Gemini APIGoogle AI Studio를 통해 개발자에게 공식 공개했습니다. ER은 **Embodied Reasoning(체현 추론)**을 의미합니다 — AI가 이미지를 이해하는 것을 넘어, 삼차원 공간에서 객체 위치, 관계, 가능한 물리적 행동을 진정으로 파악할 수 있게 합니다.

개발자에게 이것은不值得一试할 도구입니다.


Robotics-ER 1.6의 핵심 기능

공간 추론

Robotics-ER 1.6은 단일 RGB 이미지나 카메라 스트림에서 객체 상대 위치와 심도 관계를 추정할 수 있습니다. 이것은 추가적인 심도 센서가 아닌 — 모델 자체가 시각적 공간 이해를 학습한 결과입니다.

实际적 함의: 로бот은 비싼 LiDAR나 스테레오 카메라가 필요 없습니다; 일반 카메라만으로 AI가 장면的几何학을 이해할 수 있습니다.

조작 계획

주어진 목표(“흩어진 블록을 일렬로 arranged”)가 있으면, 모델은 분해된 행동 단계의 시퀀스를 출력할 수 있습니다:

  • 어떤 객체를 잡을 것인가
  • 어떤 각도로 접근할 것인가
  • 어떤 목표 위치로 이동할 것인가
  • 놓는 타이밍

이 출력들은 자연어가 아닌 — 로봇 제어 시스템이 직접 파싱할 수 있는 구조화된 명령 형식입니다.

멀티모달 입력 통합

Robotics-ER 1.6은 동시에 허용할 수 있습니다:

  • 시각적 입력 (이미지, 비디오 프레임)
  • 텍스트 지침
  • 센서 값 (온도, 힘, 가속도 등)

그리고 공간 이해가 통합된 추론 결과를 출력합니다 — 순수한 시각적 분류보다 실제 세계 시나리오 요구에 훨씬 가까운합니다.


개발자는 어떻게 API에 연결할까요?

###クイックスタート

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
import google.generativeai as genai
from PIL import Image
import requests

genai.configure(api_key="YOUR_API_KEY")

# Robotics-ER 모델 사용
model = genai.GenerativeModel("gemini-robotics-er-1.6")

# 장면 이미지 로드
image = Image.open("workspace_scene.jpg")

# 공간 추론 질문
response = model.generate_content([
    image,
    "Identify all objects on the table and describe their relative positional relationships.\n"
    "What action steps are needed to move the blue cube next to the red circle?"
])

print(response.text)

로봇 조작 명령 출력

구조화된 출력이 필요한 시나리오에서는 시스템 프롬프트를 사용하여 모델이 JSON 형식의 행동 시퀀스를 출력하도록 유도할 수 있습니다:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
system_prompt = """
You are a robot manipulation planner.
After receiving an image and target instruction, output a JSON-formatted action sequence:
{
  "steps": [
    {"action": "move_to", "target": "blue_cube", "confidence": 0.95},
    {"action": "grasp", "grip_force": "medium"},
    {"action": "move_to", "position": {"x": 0.3, "y": 0.1, "z": 0.05}},
    {"action": "release"}
  ]
}
"""

model = genai.GenerativeModel(
    "gemini-robotics-er-1.6",
    system_instruction=system_prompt
)

실시간 스트리밍 시나리오

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
import cv2

cap = cv2.VideoCapture(0)  # 카메라 스트림

while True:
    ret, frame = cap.read()
    if not ret:
        break

    # N 프레임마다 추론 실행 (장면 역학에 따라 빈도 조절)
    if frame_count % 30 == 0:
        image = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))
        response = model.generate_content([
            image,
            "Are there any anomalies in the scene that require robot intervention?"
        ])
        handle_response(response.text)

실제 적용 시나리오

산업 자동화: 비전 가이드 그랩

기존 산업용 로보트는 객체 위치를 고정 좌표에서 그랩합니다 — 객체 위치가 변하면 실패가 발생합니다. Robotics-ER은 로보트가 현재 객체의 실제 위치를 “보고” 동적으로 그랩 경로를 조정할 수 있게 합니다 — 특히mixed-line 생산과 불규칙한 입고 물자에 매우 가치 있습니다.

창고 물류: 유연한 분류

전자상거래 창고 물품은 무수한 형태와 크기로 Llegados. Robotics-ER의 조작 계획은 개별 SKU를 프로그래밍할 필요 없이, 객체幾何학에 따라 최적의 그랩 전략을 자동으로 선택할 수 있습니다.

AR/MR 개발: 공간 주석

Apple Vision Pro나 Meta Quest와 같은 AR 장치용 애플리케이션 개발시, 실제 공간에서 가상 객체를 정확하게 배치해야 합니다. Robotics-ER의 공간 이해는 AR 애플리케이션이 사용자의 환경을 더 정확하게 파악할 수 있게 합니다.

드론 탐색: 장면 인식

실내 드론이나 저고도 자율 비행자는 GPS 신호가 불안정할 때 시각적 장면 이해가 필요합니다. Robotics-ER의 공간 추론은 “문을 보고 지날 수 있는지 알 수 있는"과 같은 자연어 스타일의 环境 이해를 가능하게 합니다.


다른 모델과의 비교

기능Regular Gemini ProGemini VisionRobotics-ER 1.6
이미지 이해
텍스트 추론
공간 관계 이해제한적
심도 추정
조작 행동 계획
센서 데이터 통합

Robotics-ER은 기존 모델을 대체하는 것이 아닙니다 — 특정 시나리오, 특히 “물리적 세계"를 이해해야 하는 애플리케이션에 새로운 차원을 추가합니다.


제한 사항과 참고 사항

개발자가 기억해야 할 몇 가지 사항:

지연 시간 문제: 공간 추론은 일반 텍스트 추론보다 더 많은 컴퓨팅 파워가 필요하므로, API 응답 시간이 상대적으로깁니다. 실시간 피드백이 필요한 제어 루프(<100ms)의 경우, 에지에서 경량 모델과 페어링해야 합니다.

여전히 제한 접근: 모든 개발자가 즉시 전체 기능을 사용할 수 있는 것은 아닙니다. 일부 고급 기능(조작 명령 출력 등)은 신청 절차가 필요합니다.

정확도는 교육 데이터에 따라 다릅니다: 모델은 일반적인 시나리오(식당, 창고, 주방)에서 더 잘 수행합니다; 고도로 전문화된 산업 시니오는 여전히 파인 튜닝이나 few-shot 프롬프팅이 필요합니다.

하드웨어를 직접 제어하지 않습니다: Robotics-ER은 추론 결과를 출력합니다 — 실제 로봇 제어는 ROS 2, 로봇 SDK, 또는 커스텀 컨트롤러로 구현해야 합니다.


지금 사용해 보세요

  1. Google AI Studio로 이동
  2. 모델 gemini-robotics-er-1.6 선택
  3. 객체가 포함된 이미지 업로드
  4. 공간 추론 또는 조작 계획 질문 입력

로봇 하드웨어 없이도 시뮬레이션된 이미지로 공간 추론 기능을 테스트할 수 있습니다.


개발자에게 의미하는 것

Gemini Robotics-ER 1.6이 API를 공개한 것은 이전에 대형 로보틱스 기업만 부담할 수 있던 AI 시각적 추론 기능을 모든 개발자가 API 형태로 접근할 수 있게 한다는 것입니다.

나만의 공간 인식 모델을 교육할 필요가 없습니다, 머신러닝 엔지니어를 고용할 필요가 없습니다 — REST API를 호출할 수만 있다면, 애플리케이션에 “3D 세계 이해” 기능을 추가할 수 있습니다.

이것은 공학小说的가 아닙니다 — 오늘 바로 experimenting을 시작할 수 있는 도구입니다.


이 글은 구글이 공식 발표를 기반으로 작성되었습니다. 기술 세부사항과 API 인터페이스는 Google AI Studio 문서를 참조하세요.