KirinNews

구글, 70개 이상 언어 지원하는 실시간 음성 번역 오디오 모델 'Gemini 3.5 Live Translate' 출시

구글, 70개 이상 언어 지원하는 실시간 음성 번역 오디오 모델 'Gemini 3.5 Live Translate' 출시

Key Points

  • 1구글이 발화자의 억양과 속도를 유지하며 70개국 이상의 언어를 실시간 번역하는 최신 오디오 모델 'Gemini 3.5 Live Translate'를 출시했습니다.
  • 2Gemini Live API와 Google AI Studio를 통해 퍼블릭 프리뷰로 제공되며, 다양한 실시간 미디어 스트리밍 플랫폼들과의 통합을 지원합니다.
  • 3Google Meet에 도입되어 하나의 회의에서 2,000개 이상의 언어 조합을 지원하는 엔터프라이즈 환경을 구축합니다.
  • 4안드로이드 구글 번역 앱에 오디오 스트리밍을 기기 스피커로 직접 수신하는 '리스닝 모드'가 새롭게 추가되었습니다.
  • 5모델이 생성한 모든 오디오에는 AI 콘텐츠 탐지를 위한 'SynthID' 워터마크가 내장되어 배포됩니다.
구글이 70개 이상의 언어를 지원하는 실시간 음성-음성 번역 모델 'Gemini 3.5 Live Translate'를 출시했습니다. 화자의 억양과 속도를 유지하며 지속적으로 음성을 생성해 지연 시간을 최소화한 것이 특징입니다. 개발자는 Gemini Live API를 통해, 기업은 Google Meet을 통해 워크플로우에 통합할 수 있습니다.

구글(Google)이 70개 이상의 언어에서 실시간 음성-음성 번역을 제공하는 최신 오디오 모델 'Gemini 3.5 Live Translate'를 공식 출시했습니다. 기존의 턴 바이 턴(turn-by-turn) 방식과 달리 발화자가 말을 마칠 때까지 기다리지 않고 지속적으로 음성을 생성하여, 번역의 자연스러움과 화자의 억양, 속도, 음조를 그대로 유지하는 것이 특징입니다.

개발자들은 오늘부터 Gemini Live API 및 Google AI Studio를 통해 이 모델을 퍼블릭 프리뷰 형태로 활용할 수 있습니다. 수동 언어 설정 없이 다국어 입력을 원활하게 처리하며, 노이즈에 강해 시끄러운 환경에서도 안정적인 성능을 발휘합니다. 특히 Agora, LiveKit, Pipecat 등의 서드파티 플랫폼과 통합되어 복잡한 실시간 미디어 스트리밍 인프라 구축 없이도 오디오 번역 앱을 쉽게 배포할 수 있습니다.

기업 환경에서는 이달부터 Google Meet의 프라이빗 프리뷰를 통해 3.5 Live Translate가 도입됩니다. 기존 5개 언어만 지원하던 제한에서 벗어나 70개 이상의 언어와 2,000개 이상의 언어 조합을 하나의 회의에서 실시간으로 처리할 수 있게 됩니다. 일반 사용자를 위해서는 안드로이드 및 iOS용 구글 번역 앱을 통해 글로벌 배포가 시작되며, 안드로이드의 경우 헤드폰 없이도 전화 통화처럼 번역을 들을 수 있는 새로운 '리스닝 모드'가 제공됩니다.

보안 및 오남용 방지 측면에서, 해당 모델이 생성하는 모든 오디오에는 AI 생성 콘텐츠임을 식별할 수 있는 'SynthID' 워터마크가 기본적으로 적용되어 배포됩니다.

다른 소식들