📰 핵심 요약

Google DeepMind가 Gemini 3.5 Live Translate를 출시했습니다. 이는 실시간 음성 대 음성 번역을 위해 특별히 설계된 오디오 모델입니다. 기존 “말이 끝날 때까지 기다렸다가 번역"하는 순차 방식과 달리, 3.5 Live Translate는 연속 음성 생성 기술을 채택해 화자의 억양, 리듬, 음조를 보존하면서 항상 화자보다 수 초만 뒤처져 대화가 끊기지 않고 자연스럽게 이어집니다. 모델은 70개 이상의 언어를 자동으로 인식하므로 수동 설정 전환이 필요 없으며, 소음이 많거나 불안정한 현실 환경에 대응할 수 있는 노이즈 억제 기능도 갖추고 있습니다.

배포 범위와 관련해, 오늘부터 개발자는 Gemini Live API와 Google AI Studio 공개 프리뷰를 통해 사용 권한을 얻을 수 있습니다. 기업 사용자는 이달부터 비공개 프리뷰 형식으로 Google Meet에 도입되며, 언어 지원 수가 기존 5개에서 70개 이상으로 대폭 확대되어 2,000가지 이상의 언어 조합을 지원합니다. 소비자 단에서는 Android와 iOS 버전 Google 번역에도 동시 출시됩니다.

파트너사 측면에서, 동남아시아 차량 호출 플랫폼 Grab이 이 모델을 테스트 중이며, 운전자와 승객 간 다국어 실시간 소통에 활용하고 있습니다. Grab 플랫폼에서는 매월 1,000만 건 이상의 음성 통화 수요가 발생합니다. Agora, LiveKit, Pipecat 등의 개발자 플랫폼도 Gemini Live API를 통합해, 개발자가 복잡한 스트리밍 인프라를 직접 처리하지 않고도 음성 번역 애플리케이션을 빠르게 구축할 수 있도록 지원합니다.


💬 JudyAI Lab 관점

Google DeepMind가 Gemini 3.5 Live Translate를 발표했습니다. 연속 음성 생성 기술을 채택해 번역 지연을 화자보다 수 초 이내로 압축함으로써, 기존 “말이 끝날 때까지 기다렸다가 번역"하는 순차 방식의 병목을 해소했습니다. 음성 AI가 실험적 환경에서 일상 대화로 넘어오는 명확한 전환점이라 할 수 있습니다.

이 사례에서 두 가지를 관찰할 수 있습니다. 첫째, 정확도는 더 이상 음성 번역의 유일한 지표가 아닙니다. 억양, 리듬, 음조의 보존 정도가 대화 양측의 소통 체감에 직접 영향을 미치며, 이는 기존 다국어 제품에서 자주 간과되던 설계 세부 사항입니다. 둘째, 하위 스트리밍 인프라가 API 안으로 캡슐화된 이후, Agora, LiveKit, Pipecat 같은 플랫폼은 복잡한 스트리밍 로직을 직접 처리하지 않고 그 위에 애플리케이션을 바로 쌓을 수 있습니다. Grab의 매월 1,000만 건 이상 음성 통화 시나리오는, 현실의 소음이 많은 환경에서의 노이즈 억제 능력이 실제 배포의 진짜 진입 장벽임을 보여줍니다. 70개 언어, 2,000가지 이상의 언어 조합 지원으로 다국어 전환이 더 이상 수동 설정이 필요한 엣지 케이스가 아니게 되었습니다.

음성 관련 제품을 검토 중이라면, 지금 Google AI Studio에서 Gemini Live API 프리뷰를 신청하고, 노이즈 억제 능력과 억양 보존이 목표 사용 환경에 부합하는지 중점적으로 테스트한 후 통합 여부를 결정하시기 바랍니다.


📅 원문 정보


🔗 더 읽어보기