이 글은 JudyAI Lab의 AI 엔지니어링 시리즈 중 하나입니다 — 100편 이상 발행된 가이드, 60개국 5,000명 이상의 주간 독자가 읽는 콘텐츠로, AI 에이전트·트레이딩 시스템·콘텐츠 파이프라인의 실전 운영에 초점을 둡니다.
“공간을 이해하는” AI 모델
대부분의 AI 모델은 이미지 분석, 텍스트 작성, 데이터 분석에 뛰어 납니다 — 하지만 “왼쪽에 있는 빨간 컵을 15cm 오른쪽으로 옮겨줘"라고 물어보면 아마 혼란스러워할 것입니다.
바로 이것이 Gemini Robotics-ER 1.6이 해결하도록 설계된 문제입니다.
구글은 이 모델을 Gemini API와 Google AI Studio를 통해 개발자에게 공식 공개했습니다. ER은 **Embodied Reasoning(체현 추론)**을 의미합니다 — AI가 이미지를 이해하는 것을 넘어, 삼차원 공간에서 객체 위치, 관계, 가능한 물리적 행동을 진정으로 파악할 수 있게 합니다.
개발자에게 이것은 시도해볼 가치가 있는 도구입니다.
Robotics-ER 1.6의 핵심 기능
공간 추론
Robotics-ER 1.6은 단일 RGB 이미지나 카메라 스트림에서 객체 상대 위치와 심도 관계를 추정할 수 있습니다. 이것은 추가적인 심도 센서가 아닌 — 모델 자체가 시각적 공간 이해를 학습한 결과입니다.
실질적 함의: 로бот은 비싼 LiDAR나 스테레오 카메라가 필요 없습니다; 일반 카메라만으로 AI가 장면의 기하학을 이해할 수 있습니다.
조작 계획
주어진 목표(“흩어진 블록을 일렬로 arranged”)가 있으면, 모델은 분해된 행동 단계의 시퀀스를 출력할 수 있습니다:
- 어떤 객체를 잡을 것인가
- 어떤 각도로 접근할 것인가
- 어떤 목표 위치로 이동할 것인가
- 놓는 타이밍
이 출력들은 자연어가 아닌 — 로봇 제어 시스템이 직접 파싱할 수 있는 구조화된 명령 형식입니다.
멀티모달 입력 통합
Robotics-ER 1.6은 동시에 허용할 수 있습니다:
- 시각적 입력 (이미지, 비디오 프레임)
- 텍스트 지침
- 센서 값 (온도, 힘, 가속도 등)
그리고 공간 이해가 통합된 추론 결과를 출력합니다 — 순수한 시각적 분류보다 실제 세계 시나리오 요구에 훨씬 가까운합니다.
개발자는 어떻게 API에 연결할까요?
빠른 시작
| |
로봇 조작 명령 출력
구조화된 출력이 필요한 시나리오에서는 시스템 프롬프트를 사용하여 모델이 JSON 형식의 행동 시퀀스를 출력하도록 유도할 수 있습니다:
| |
실시간 스트리밍 시나리오
| |
실제 적용 시나리오
산업 자동화: 비전 가이드 그랩
기존 산업용 로보트는 객체 위치를 고정 좌표에서 그랩합니다 — 객체 위치가 변하면 실패가 발생합니다. Robotics-ER은 로보트가 현재 객체의 실제 위치를 “보고” 동적으로 그랩 경로를 조정할 수 있게 합니다 — 특히mixed-line 생산과 불규칙한 입고 물자에 매우 가치 있습니다.
창고 물류: 유연한 분류
전자상거래 창고 물품은 무수한 형태와 크기로 Llegados. Robotics-ER의 조작 계획은 개별 SKU를 프로그래밍할 필요 없이, 객체 기하학에 따라 최적의 그랩 전략을 자동으로 선택할 수 있습니다.
AR/MR 개발: 공간 주석
Apple Vision Pro나 Meta Quest와 같은 AR 장치용 애플리케이션 개발시, 실제 공간에서 가상 객체를 정확하게 배치해야 합니다. Robotics-ER의 공간 이해는 AR 애플리케이션이 사용자의 환경을 더 정확하게 파악할 수 있게 합니다.
드론 탐색: 장면 인식
실내 드론이나 저고도 자율 비행자는 GPS 신호가 불안정할 때 시각적 장면 이해가 필요합니다. Robotics-ER의 공간 추론은 “문을 보고 지날 수 있는지 알 수 있는"과 같은 자연어 스타일의 환경 이해를 가능하게 합니다.
다른 모델과의 비교
| 기능 | Regular Gemini Pro | Gemini Vision | Robotics-ER 1.6 |
|---|---|---|---|
| 이미지 이해 | ✅ | ✅ | ✅ |
| 텍스트 추론 | ✅ | ✅ | ✅ |
| 공간 관계 이해 | ❌ | 제한적 | ✅ |
| 심도 추정 | ❌ | ❌ | ✅ |
| 조작 행동 계획 | ❌ | ❌ | ✅ |
| 센서 데이터 통합 | ❌ | ❌ | ✅ |
Robotics-ER은 기존 모델을 대체하는 것이 아닙니다 — 특정 시나리오, 특히 “물리적 세계"를 이해해야 하는 애플리케이션에 새로운 차원을 추가합니다.
제한 사항과 참고 사항
개발자가 기억해야 할 몇 가지 사항:
지연 시간 문제: 공간 추론은 일반 텍스트 추론보다 더 많은 컴퓨팅 파워가 필요하므로, API 응답 시간이 상대적으로깁니다. 실시간 피드백이 필요한 제어 루프(<100ms)의 경우, 에지에서 경량 모델과 페어링해야 합니다.
여전히 제한 접근: 모든 개발자가 즉시 전체 기능을 사용할 수 있는 것은 아닙니다. 일부 고급 기능(조작 명령 출력 등)은 신청 절차가 필요합니다.
정확도는 교육 데이터에 따라 다릅니다: 모델은 일반적인 시나리오(식당, 창고, 주방)에서 더 잘 수행합니다; 고도로 전문화된 산업 시니오는 여전히 파인 튜닝이나 few-shot 프롬프팅이 필요합니다.
하드웨어를 직접 제어하지 않습니다: Robotics-ER은 추론 결과를 출력합니다 — 실제 로봇 제어는 ROS 2, 로봇 SDK, 또는 커스텀 컨트롤러로 구현해야 합니다.
지금 사용해 보세요
- Google AI Studio로 이동
- 모델
gemini-robotics-er-1.6선택 - 객체가 포함된 이미지 업로드
- 공간 추론 또는 조작 계획 질문 입력
로봇 하드웨어 없이도 시뮬레이션된 이미지로 공간 추론 기능을 테스트할 수 있습니다.
개발자에게 의미하는 것
Gemini Robotics-ER 1.6이 API를 공개한 것은 이전에 대형 로보틱스 기업만 부담할 수 있던 AI 시각적 추론 기능을 모든 개발자가 API 형태로 접근할 수 있게 한다는 것입니다.
나만의 공간 인식 모델을 교육할 필요가 없습니다, 머신러닝 엔지니어를 고용할 필요가 없습니다 — REST API를 호출할 수만 있다면, 애플리케이션에 “3D 세계 이해” 기능을 추가할 수 있습니다.
이것은 공상 과학이 아닙니다 — 오늘 바로 experimenting을 시작할 수 있는 도구입니다.
이 글은 구글이 공식 발표를 기반으로 작성되었습니다. 기술 세부사항과 API 인터페이스는 Google AI Studio 문서를 참조하세요.