“공간을 이해하는” AI 모델
대부분의 AI 모델은 이미지 분석, 텍스트 작성, 데이터 분석에 뛰어 납니다 — 하지만 “왼쪽에 있는 빨간 컵을 15cm 오른쪽으로 옮겨줘"라고 물어보면 아마 혼란스러워할でしょう.
바로 이것이 Gemini Robotics-ER 1.6이 해결하도록 설계된 문제입니다.
구글은 이 모델을 Gemini API와 Google AI Studio를 통해 개발자에게 공식 공개했습니다. ER은 **Embodied Reasoning(체현 추론)**을 의미합니다 — AI가 이미지를 이해하는 것을 넘어, 삼차원 공간에서 객체 위치, 관계, 가능한 물리적 행동을 진정으로 파악할 수 있게 합니다.
개발자에게 이것은不值得一试할 도구입니다.
Robotics-ER 1.6의 핵심 기능
공간 추론
Robotics-ER 1.6은 단일 RGB 이미지나 카메라 스트림에서 객체 상대 위치와 심도 관계를 추정할 수 있습니다. 이것은 추가적인 심도 센서가 아닌 — 모델 자체가 시각적 공간 이해를 학습한 결과입니다.
实际적 함의: 로бот은 비싼 LiDAR나 스테레오 카메라가 필요 없습니다; 일반 카메라만으로 AI가 장면的几何학을 이해할 수 있습니다.
조작 계획
주어진 목표(“흩어진 블록을 일렬로 arranged”)가 있으면, 모델은 분해된 행동 단계의 시퀀스를 출력할 수 있습니다:
- 어떤 객체를 잡을 것인가
- 어떤 각도로 접근할 것인가
- 어떤 목표 위치로 이동할 것인가
- 놓는 타이밍
이 출력들은 자연어가 아닌 — 로봇 제어 시스템이 직접 파싱할 수 있는 구조화된 명령 형식입니다.
멀티모달 입력 통합
Robotics-ER 1.6은 동시에 허용할 수 있습니다:
- 시각적 입력 (이미지, 비디오 프레임)
- 텍스트 지침
- 센서 값 (온도, 힘, 가속도 등)
그리고 공간 이해가 통합된 추론 결과를 출력합니다 — 순수한 시각적 분류보다 실제 세계 시나리오 요구에 훨씬 가까운합니다.
개발자는 어떻게 API에 연결할까요?
###クイックスタート
| |
로봇 조작 명령 출력
구조화된 출력이 필요한 시나리오에서는 시스템 프롬프트를 사용하여 모델이 JSON 형식의 행동 시퀀스를 출력하도록 유도할 수 있습니다:
| |
실시간 스트리밍 시나리오
| |
실제 적용 시나리오
산업 자동화: 비전 가이드 그랩
기존 산업용 로보트는 객체 위치를 고정 좌표에서 그랩합니다 — 객체 위치가 변하면 실패가 발생합니다. Robotics-ER은 로보트가 현재 객체의 실제 위치를 “보고” 동적으로 그랩 경로를 조정할 수 있게 합니다 — 특히mixed-line 생산과 불규칙한 입고 물자에 매우 가치 있습니다.
창고 물류: 유연한 분류
전자상거래 창고 물품은 무수한 형태와 크기로 Llegados. Robotics-ER의 조작 계획은 개별 SKU를 프로그래밍할 필요 없이, 객체幾何학에 따라 최적의 그랩 전략을 자동으로 선택할 수 있습니다.
AR/MR 개발: 공간 주석
Apple Vision Pro나 Meta Quest와 같은 AR 장치용 애플리케이션 개발시, 실제 공간에서 가상 객체를 정확하게 배치해야 합니다. Robotics-ER의 공간 이해는 AR 애플리케이션이 사용자의 환경을 더 정확하게 파악할 수 있게 합니다.
드론 탐색: 장면 인식
실내 드론이나 저고도 자율 비행자는 GPS 신호가 불안정할 때 시각적 장면 이해가 필요합니다. Robotics-ER의 공간 추론은 “문을 보고 지날 수 있는지 알 수 있는"과 같은 자연어 스타일의 环境 이해를 가능하게 합니다.
다른 모델과의 비교
| 기능 | Regular Gemini Pro | Gemini Vision | Robotics-ER 1.6 |
|---|---|---|---|
| 이미지 이해 | ✅ | ✅ | ✅ |
| 텍스트 추론 | ✅ | ✅ | ✅ |
| 공간 관계 이해 | ❌ | 제한적 | ✅ |
| 심도 추정 | ❌ | ❌ | ✅ |
| 조작 행동 계획 | ❌ | ❌ | ✅ |
| 센서 데이터 통합 | ❌ | ❌ | ✅ |
Robotics-ER은 기존 모델을 대체하는 것이 아닙니다 — 특정 시나리오, 특히 “물리적 세계"를 이해해야 하는 애플리케이션에 새로운 차원을 추가합니다.
제한 사항과 참고 사항
개발자가 기억해야 할 몇 가지 사항:
지연 시간 문제: 공간 추론은 일반 텍스트 추론보다 더 많은 컴퓨팅 파워가 필요하므로, API 응답 시간이 상대적으로깁니다. 실시간 피드백이 필요한 제어 루프(<100ms)의 경우, 에지에서 경량 모델과 페어링해야 합니다.
여전히 제한 접근: 모든 개발자가 즉시 전체 기능을 사용할 수 있는 것은 아닙니다. 일부 고급 기능(조작 명령 출력 등)은 신청 절차가 필요합니다.
정확도는 교육 데이터에 따라 다릅니다: 모델은 일반적인 시나리오(식당, 창고, 주방)에서 더 잘 수행합니다; 고도로 전문화된 산업 시니오는 여전히 파인 튜닝이나 few-shot 프롬프팅이 필요합니다.
하드웨어를 직접 제어하지 않습니다: Robotics-ER은 추론 결과를 출력합니다 — 실제 로봇 제어는 ROS 2, 로봇 SDK, 또는 커스텀 컨트롤러로 구현해야 합니다.
지금 사용해 보세요
- Google AI Studio로 이동
- 모델
gemini-robotics-er-1.6선택 - 객체가 포함된 이미지 업로드
- 공간 추론 또는 조작 계획 질문 입력
로봇 하드웨어 없이도 시뮬레이션된 이미지로 공간 추론 기능을 테스트할 수 있습니다.
개발자에게 의미하는 것
Gemini Robotics-ER 1.6이 API를 공개한 것은 이전에 대형 로보틱스 기업만 부담할 수 있던 AI 시각적 추론 기능을 모든 개발자가 API 형태로 접근할 수 있게 한다는 것입니다.
나만의 공간 인식 모델을 교육할 필요가 없습니다, 머신러닝 엔지니어를 고용할 필요가 없습니다 — REST API를 호출할 수만 있다면, 애플리케이션에 “3D 세계 이해” 기능을 추가할 수 있습니다.
이것은 공학小说的가 아닙니다 — 오늘 바로 experimenting을 시작할 수 있는 도구입니다.
이 글은 구글이 공식 발표를 기반으로 작성되었습니다. 기술 세부사항과 API 인터페이스는 Google AI Studio 문서를 참조하세요.