📰 핵심 요약
Google이 Gemini 3.5 Flash 모델에 컴퓨터 조작(computer use) 기능을 정식으로 내장했습니다. 이 기능은 기존에 독립적인 Gemini 2.5 컴퓨터 조작 전용 모델로만 제공되었으나, 이제 주력 Flash 시리즈에 직접 통합되어 개발자가 모델을 전환할 필요 없이 사용할 수 있습니다.
Gemini 3.5 Flash는 이미 강력한 함수 호출 기능을 갖추고 있으며 Search, Maps 등 내장 도구를 지원합니다. 컴퓨터 조작 기능이 추가됨으로써, 모델이 시각적으로 화면을 인식하고 현재 상태를 추론하며 행동을 취할 수 있게 되었습니다. 적용 범위는 브라우저, 모바일 기기, 데스크톱 환경을 아우릅니다. 공식 데모 사례로는 3.5 Flash가 Gemini 앱을 자동으로 분석해 기능 분류 목록을 반환하거나, 자사 문서에 대한 접근성 설계 자동 감사를 수행하는 것이 포함됩니다. 지속적인 소프트웨어 테스트나 전문 분야를 넘나드는 지식 작업처럼 장기적이고 크로스 시스템의 엔터프라이즈급 자동화 작업이 이번 업그레이드의 주요 활용 시나리오입니다.
보안 측면에서는 Google이 컴퓨터 조작 기능에 대해 방향성 적대 훈련을 실시하여, 에이전트가 실제 환경에서 동작할 때 프롬프트 인젝션 공격에 노출될 위험을 낮췄습니다. 이와 함께 두 가지 선택적 기업 보호 메커니즘도 공개했습니다. 하나는 민감하거나 되돌릴 수 없는 작업에 명시적인 사용자 확인을 요구하는 것이고, 다른 하나는 간접 프롬프트 인젝션이 감지될 경우 자동으로 작업을 종료하는 것입니다. Google은 ‘심층 방어’ 전략을 권장하며, 위 메커니즘을 보안 샌드박스, 인간-기계 협력 검증, 엄격한 접근 제어와 함께 사용할 것을 제안합니다. 개발자는 Gemini API 및 Gemini Enterprise Agent Platform을 통해 즉시 사용을 시작할 수 있습니다.
💬 JudyAI Lab 관점
Google이 컴퓨터 조작 기능을 Gemini 3.5 Flash 주력 모델에 내장함으로써, 에이전트 핵심 기능이 ‘독립 기능’에서 모델 기반 인프라로 정식 격상되는 것을 확인할 수 있습니다.
이번 통합에서 가장 주목할 점은 설계 철학의 변화입니다. 기존에는 컴퓨터 조작이 독립 모델로 제공되었지만, 이제는 함수 호출, Search, Maps와 하나로 통합되어, 개발자가 모델을 전환하지 않고도 에이전트가 화면 인식, 도구 호출, 크로스 시스템 조작을 동시에 수행할 수 있습니다. AI 빌더 입장에서 작업 경계 설계가 모델 선택보다 더 핵심적일 수 있습니다. 어떤 단계에 시각 추론이 필요하고, 어떤 단계에 인간 확인이 필요한지—이러한 플로우 결정이 차별화의 핵심입니다. Google이 제시한 심층 방어 전략(샌드박스, 확인 메커니즘, 프롬프트 인젝션 탐지)은 에이전트에 조작 기능을 추가할 때 보안 아키텍처가 사후 패치가 되어서는 안 된다는 점을 명확히 상기시켜 줍니다.
지금 바로 Gemini API로 화면을 넘나드는 소규모 작업을 테스트해보세요. 특히 되돌릴 수 없는 작업 전에 확인이 자동으로 트리거되는지 관찰하는 것이 에이전트 보안 설계를 검증하는 가장 직접적인 방법입니다.
📅 원문 정보
- 발행 시간: 2026-06-24T16:30
- 원문 링크: https://deepmind.google/blog/introducing-computer-use-in-gemini-3-5-flash/