로봇에게 가장 부족한 것은 팔다리가 아니라 ‘두뇌’입니다

로봇 개발을 해보신 분이라면 이 고충을 잘 아실 겁니다. 로봇에게 하나의 동작을 시키는 것은 어렵지 않지만, 자신이 무엇을 하고 있는지 이해하게 만드는 것은 전혀 다른 문제입니다.

컵을 집는다? 간단합니다. 하지만 “테이블 위에서 왼쪽부터 두 번째 컵"을 집으라고 하면? 벌써 막히기 시작합니다. 집은 후에 “정말로 집었는지, 다른 것을 쓰러뜨리지는 않았는지” 확인하는 것은? 이건 더 어렵습니다.

2026년 4월 14일, Google DeepMind는 Gemini Robotics-ER 1.6을 발표했습니다. 로봇 전용으로 설계된 ‘체화된 추론(Embodied Reasoning)’ 모델이며, 개발자에게 바로 공개되었습니다.

이것은 또 하나의 연구 데모가 아닙니다. Gemini APIGoogle AI Studio에 이미 올라가 있습니다.


‘체화된 추론’이란 무엇인가요?

이 용어부터 설명하겠습니다. 이 모델의 핵심 포지셔닝이기 때문입니다.

일반적인 AI 추론(text reasoning)은 텍스트를 처리합니다. 논리 문제를 풀고, 코드를 작성하고, 문서를 요약합니다.

체화된 추론은 다릅니다. 여러분에게 신체가 있다고 가정합니다. 카메라가 있고, 로봇 팔이 있고, 관절이 있으며, 중력과 마찰력이 존재하고, 눈앞의 세계는 결코 예상과 완전히 같지 않습니다.

구체적으로 체화된 추론이 해내야 하는 것들은 다음과 같습니다:

  • 이미지에서 3D 공간을 이해 — 단순히 객체를 식별하는 것이 아니라, 어디에 있는지, 얼마나 큰지, 서로 어떤 관계인지를 파악
  • 시점 간 추적 — 카메라 각도가 바뀌고 장면이 달라져도 ‘세계’는 변하지 않음
  • 제약 조건을 고려한 행동 계획 — “이 문을 먼저 열면 뒤에 있는 손잡이에 닿을 수 없다”
  • 시각적 피드백으로 진행 상황 확인 — “동작을 수행했다"가 아니라 “결과가 정말 맞는가”
  • 모호한 상황 처리 — 똑같은 상자 세 개, 라벨이 반쯤 가려져 있을 때 어느 것을 집을 것인가

그래서 Google은 이 모델을 Embodied Reasoning이라고 부릅니다. 단순한 비전 모델도, 언어 모델도 아닌, 인지와 행동을 연결하는 추론 레이어라는 뜻입니다.


Robotics-ER 1.6은 정확히 무엇이 업그레이드되었나요?

이번은 마이너 업데이트가 아닙니다. Google은 몇 가지 핵심 능력에서 이전 버전인 Robotics-ER 1.5와 범용 Gemini 3.0 Flash를 크게 능가한다고 명확히 밝혔습니다.

1. 더 강력한 공간 추론

기본적인 것처럼 들리지만, 이것이야말로 로봇이 현장에서 가장 자주 실패하는 부분입니다:

  • 정확한 지시 — “내가 말한 그 도구를 가리켜라”, 가장 눈에 띄는 것이 아니라
  • 정확한 카운팅 — 객체가 겹쳐 있어도 잘못 세지 않음
  • 상대적 관계 — “어느 쪽이 왼쪽인가? 어느 것이 더 작은가?”
  • 제약 추론 — “파란색 컵 안에 들어갈 수 있을 만큼 작은 모든 객체를 가리켜라”

1.6 버전은 ‘포인팅(pointing)‘을 중간 추론 단계로 활용할 수 있습니다. 예를 들어 이미지에서 객체를 먼저 표시한 다음, 코드로 수학 연산을 수행하여 거리와 비율을 추정합니다. 추측이 아니라 단계적 추론입니다.

2. 다중 시점 이해

현대 로봇은 보통 여러 대의 카메라를 갖추고 있습니다. 머리 위에 하나, 손목에 하나, 때로는 그 이상입니다. 문제는 다음과 같습니다:

  • 카메라 A에서는 보이지만 카메라 B에서는 보이지 않는 객체
  • 방금까지 있었는데 지금은 가려진 객체
  • 로봇이 손목을 회전한 후 물체가 어디로 갔는지 추론해야 하는 상황

Robotics-ER 1.6은 여러 카메라의 화면을 통합하여 일관된 장면 이해를 구축할 수 있습니다. 당연한 것처럼 들리지만, 로봇에게는 “자주 멈추는 것"에서 “대부분의 경우 계속 진행할 수 있는 것"으로의 차이입니다.

3. 작업 계획

로봇의 작업 계획은 “목록을 만드는 것"이 아니라 “현실 세계에서 무너지지 않는 목록을 만드는 것"입니다.

“컵을 식기세척기에 넣어라"라는 간단한 작업만 봐도 그렇습니다. 식기세척기가 열려 있는가? 선반에 공간이 있는가? 컵의 방향을 돌려야 들어가는가? 넣을 때 다른 것을 쓰러뜨리지는 않는가?

1.6 버전은 이런 문제를 더 잘 분해할 수 있으며, 물리적 제약을 인지합니다. 지시의 문자적 의미만 이해하는 것이 아닙니다.

4. 성공 감지 (가장 핵심적인 부분)

많은 사람이 간과하지만 극도로 중요한 능력입니다: 로봇이 작업이 완료되었음을 어떻게 아는가?

차이는 여기에 있습니다:

  • “그리퍼를 손잡이 위치로 이동시켰다” vs.
  • “실제로 손잡이를 잡았고, 문이 확실히 열렸다”

신뢰할 수 있는 성공 감지가 없으면 대량의 맞춤 검증 로직, 센서, 규칙 엔진을 추가해야 합니다. Robotics-ER 1.6의 이 부분 향상은 “로봇이 완료했다고 생각했지만 실제로는 완료하지 못한” 상황을 직접적으로 줄여줍니다.

더 중요한 것은, 성공 감지가 긴 작업 체인의 기반이라는 점입니다. 3단계의 결과가 불확실하면 9단계는 필연적으로 실패합니다.

5. 계기 판독 (완전히 새로운 기능)

이것은 Google이 Boston Dynamics와 협력하면서 발견한 니즈이며, 이번에 가장 실용적인 새 기능입니다.

계기 판독이 그저 OCR이라고 생각하실 수 있지만, 실제로는 OCR보다 훨씬 어렵습니다:

  • 압력계의 바늘이 이상한 각도에 있을 수 있음
  • 수위계에 시차 왜곡이 있음
  • 빛 반사, 먼지, 결로
  • 서로 다른 눈금, 서로 다른 단위, 일부 계기는 여러 바늘이 서로 다른 소수점 자릿수를 나타냄

Robotics-ER 1.6은 에이전틱 비전(agentic vision)(시각적 추론과 코드 실행의 결합)으로 이러한 문제를 처리합니다. 먼저 이미지를 확대하여 세부 사항을 확인하고, 포인팅으로 눈금을 표시한 다음, 코드로 비율과 간격을 계산합니다.

성능은 어떨까요? Google의 벤치마크에 따르면:

모델계기 판독 성공률
Gemini Robotics-ER 1.523%
Gemini 3.0 Flash67%
Robotics-ER 1.686%
Robotics-ER 1.6 + agentic vision93%

23%에서 93%로의 도약은 미세 조정이 아니라 질적 변화입니다.


안전성: 현재까지 가장 안전한 로봇 모델

Google은 Robotics-ER 1.6이 자사의 “지금까지 가장 안전한 로봇 모델"이라고 강조합니다. 구체적으로는:

  • 적대적 공간 추론 작업에서 Gemini 안전 정책 준수도가 가장 높음
  • 물리적 안전 제약을 더 잘 판단 — 예를 들어 “액체를 취급하지 않는다”, “20kg 이상의 물건을 들지 않는다”
  • 실제 부상 보고서 기반 안전 테스트(ASIMOV 벤치마크)에서 Gemini 3.0 Flash 대비 6%(텍스트 시나리오) 및 10%(비디오 시나리오) 향상

하지만 냉정하게 볼 필요가 있습니다: 모델은 안전 시스템이 아닙니다. 실제로 로봇을 배치할 때는 여전히 속도 제한, 힘 제한, 지오펜싱, 충돌 감지, 비상 정지 버튼, 사람의 검토가 필요합니다. 모델은 오류율을 낮출 수 있지만 오류율을 없앨 수는 없습니다.


개발자는 어떻게 사용하나요?

이미 공개되어 있습니다. 세 가지 접근 경로가 있습니다:

  1. Gemini API — 모델을 직접 호출하여 로봇 제어 루프에 통합
  2. Google AI Studio — 온라인 테스트 및 상호작용 (모델 ID: gemini-robotics-er-1.6-preview)
  3. GitHub Colab — Google이 제공하는 예제 노트북, 모델 설정 및 프롬프트 예제 포함

통합의 기본 흐름:

  • 이미지를 입력 (다중 시점 화면 가능)
  • 구조화된 출력을 요청 (계획, 객체 참조, 성공 판단)
  • 출력을 로봇 제어 루프에 연결
  • 안전 게이트와 검증 메커니즘을 추가

주목할 점은 이 모델이 네이티브 도구 호출이 가능하다는 것입니다. Google Search로 정보를 조회하거나, VLA(Vision-Language-Action 모델)로 동작을 실행하거나, 사용자가 정의한 서드파티 함수를 호출할 수 있습니다. 즉, 이 모델은 로봇의 상위 추론 허브로 설계되었으며, 단순한 시각 인식 모듈이 아닙니다.


어떤 시나리오가 가장 먼저 혜택을 받을까요?

기술 이야기를 마쳤으니 실제 응용 분야를 살펴보겠습니다. 가장 먼저 활용할 수 있는 시나리오는 대략 다음과 같습니다:

산업 순찰
로봇이 공장을 순찰하면서 압력계와 온도계를 판독하고, 데이터를 기록하며, 이상을 표시합니다. 많은 공장이 아직 완전히 디지털화되지 않았기 때문에, 계기 판독 기능은 “먼저 IoT 센서를 설치해야 한다"는 문턱을 바로 넘어갑니다. Boston Dynamics의 Spot 로봇이 이미 이 기능을 사용하고 있습니다.

물류 창고
혼합 SKU 시나리오에서의 예외 처리 — 물건이 기울어져 있거나, 라벨이 흐리거나, 수량이 맞지 않는 경우. 공간 추론 + 성공 감지 = 인력 개입 감소.

실험실 자동화
정밀한 카운팅, 정확한 배치, 디스플레이 판독, 실험 단계 완료 확인. 제약 및 바이오테크 기업에게는 이 모든 것이 컴플라이언스 요건입니다.

시설 유지보수
일상 순찰, 패널 개폐, 장비 상태 기록. 높은 난이도의 작업은 아니지만 인지와 판단이 필요하며, 이것이 바로 이 모델이 잘하는 영역입니다.

소매 백오피스
재고 점검, 라벨 대조, 어수선한 환경에서 특정 물품 찾기.

공통 주제는 “고난이도 정밀 조작"이 아니라 변화가 있는 반복적 워크플로우입니다. 인지와 검증이야말로 진정한 고충입니다.


이것이 왜 중요한가요? 개발자의 관점

저희 팀은 매일 AI 에이전트와 씨름합니다. 작업을 배분하고, 실행을 모니터링하고, 결과를 검증합니다. Gemini Robotics-ER 1.6을 보았을 때 첫 번째 반응은 “또 다른 새 모델이군"이 아니라 이것이었습니다: Google이 ‘에이전트’ 개념을 소프트웨어에서 하드웨어로 옮기고 있다.

생각해 보십시오. 소프트웨어 에이전트에서 우리가 처리하는 문제들 — 지시 이해, 단계 계획, 실행 후 검증, 예외 처리 — 로봇도 이 모든 것을 다루어야 하며, 물리 세계에서는 ctrl+z가 불가능하기에 더욱 어렵습니다.

Robotics-ER 1.6이 실제로 하는 일은, 소프트웨어 에이전트 분야에서 축적한 추론 능력을 물리 세계를 이해할 수 있는 모델에 주입하는 것입니다.

주목할 만한 세 가지 방향:

첫째, 로봇이 ‘프로그래밍된 행동’에서 ‘자율적 행동’으로 전환하고 있습니다. 로봇이 마음대로 행동한다는 뜻이 아닙니다. 목표를 받아들이고, 계획을 수립하며, 실행 중 자체 점검을 하고, 문제가 생기면 조정할 수 있다는 뜻입니다. 성공 감지가 바로 이 전환의 핵심입니다.

둘째, 모델 패밀리화. Gemini는 더 이상 단순한 채팅 모델이 아닙니다. 크로스 모달, 크로스 환경 모델 패밀리로 진화하고 있습니다 — 텍스트, 이미지, 도구 사용, 그리고 이제 체화된 추론까지. 개발자에게 이는 하나의 생태계 안에서 텍스트 대화부터 로봇 제어까지의 전체 경로를 처리할 수 있음을 의미합니다.

셋째, ‘충분히 좋은’ 기준이 낮아지고 있습니다. 이전에는 로봇을 새로운 환경에서 운용하려면 대량의 맞춤 엔지니어링이 필요했습니다. 범용 체화된 추론 모델이 시나리오의 80%를 처리할 수 있다면, 나머지 20%만 맞춤 해결하면 됩니다. 이는 더 많은 팀이 로봇 애플리케이션을 개발할 수 있게 해줄 것입니다.


냉정함을 유지해야 할 몇 가지 사항

좋은 점을 이야기했으니 현실적인 한계도 짚어보겠습니다:

벤치마크는 여러분의 공장이 아닙니다. Google의 데이터는 자체 테스트 환경에서 인상적입니다. 하지만 여러분의 현장에는 고유한 카메라 각도, 조명 조건, 객체 종류, 오차 허용 기준이 있습니다.

‘추론’이 ‘신뢰성’을 의미하지는 않습니다. 모델이 계획을 훌륭하게 설명한 다음 두 번째 단계에서 실패할 수 있습니다. 특히 인지가 불확실한 경우에는 더 그렇습니다.

계기 판독은 디지털 계측화가 아닙니다. 많은 시나리오에서 직접적인 센서와 원격 측정 데이터가 여전히 우선됩니다. 로봇 계기 판독은 보통 과도기적 솔루션이지 최종 상태가 아닙니다.

롱테일 효과는 잔혹합니다. 반사 표면, 투명 물체, 케이블, 봉투, 예측 불가능한 행동을 하는 사람. ROI가 99.9% 신뢰도에 의존한다면 여전히 방대한 엔지니어링 시간이 필요합니다.


결론

Gemini Robotics-ER 1.6이 의미하는 바는 “또 하나의 더 강력한 비전 모델"이 아니라, 로봇 AI의 다음 단계에 대한 Google의 판단입니다: 로봇에게 필요한 것은 더 좋은 모터나 더 좋은 그리퍼가 아니라, 루프 안에서의 더 나은 추론 능력입니다.

보고, 계획하고, 행동하고, 확인하고, 조정합니다. 계속 반복합니다.

계기 판독 기능이 가장 좋은 예시입니다. 매우 실용적이고, 다소 지루하지만, 실제 공장에서 로봇을 쓸모있게 만드는 바로 그런 종류의 능력입니다.

로봇 애플리케이션을 개발 중인 분들에게: Google AI Studio에서 시도해 보시고, Colab 예제를 실행하신 다음, 여러분 자신의 환경에서 테스트해 보십시오. 진실은 바로 거기서 드러납니다.


참고 자료:

AI × 트레이딩 완전 가이드 — 13장 실전 강좌
$49 · 기술 분석 + 리스크 관리 + Python 자동 매매
자세히 보기 →