KirinNews

구글, 실시간 음성 통역 모델 '제미나이 3.5 라이브 트랜슬레이트' 전격 출시

구글, 실시간 음성 통역 모델 '제미나이 3.5 라이브 트랜슬레이트' 전격 출시

Key Points

  • 170개 이상의 언어를 자동 감지하고 실시간에 가까운 속도로 음성 대 음성 번역을 제공합니다.
  • 2화자의 억양, 속도, 피치를 정교하게 보존하여 자연스럽고 생생한 번역 음성을 생성합니다.
  • 3기존 턴제 방식 대신 스트리밍 기반의 연속 생성 기술을 적용해 대화 지연을 최소화했습니다.
  • 4제미나이 라이브 API를 통해 개발자가 직접 다국어 통역 및 더빙 앱을 구축할 수 있도록 지원합니다.
  • 5모든 출력 오디오에 SynthID 워터마크를 적용하여 AI 생성 콘텐츠의 투명성과 안전성을 확보했습니다.
구글이 70개 이상의 언어를 실시간으로 지원하며 화자의 억양과 감정까지 보존하는 차세대 음성 번역 모델 '제미나이 3.5 라이브 트랜슬레이트'를 공개했습니다. 개발자들은 제미나이 라이브 API를 통해 이 기술을 즉시 활용할 수 있습니다.

구글이 언어의 장벽을 허물기 위한 차세대 AI 기술인 '제미나이 3.5 라이브 트랜슬레이트(Gemini 3.5 Live Translate)'를 공식 발표했습니다. 이번 모델은 단순한 텍스트 번역을 넘어, 실시간에 가까운 속도로 음성을 번역하며 화자의 감정과 뉘앙스까지 전달하는 혁신적인 성능을 보여줍니다.

기존의 번역 시스템이 화자의 말이 끝날 때까지 기다렸다가 번역을 시작하는 '턴제(Turn-by-turn)' 방식이었다면, 제미나이 3.5 라이브 트랜슬레이트는 실시간 스트리밍 처리를 통해 연속적으로 음성을 생성합니다. 이를 통해 지연 시간을 단 몇 초 수준으로 단축하여 대화의 흐름을 끊기지 않게 유지하는 것이 핵심입니다. 또한, 70개 이상의 언어를 자동으로 감지하며, 화자의 고유한 억양, 속도, 피치(음높이)를 그대로 보존해 번역된 음성에서도 원문의 감정적 맥락이 유지되도록 설계되었습니다.

개발자 생태계를 위한 지원도 강력합니다. 개발자들은 제미나이 라이브 API와 구글 AI 스튜디오를 통해 이 모델을 즉시 테스트하고 자신의 서비스에 통합할 수 있습니다. 이미 그랩(Grab), CJ ENM, 라이브킷(LiveKit) 등 글로벌 기업들이 이 모델을 도입하여 다국어 커뮤니케이션 및 콘텐츠 제작 환경을 혁신하고 있습니다. 특히 구글 미트(Google Meet)에서는 이전 5개 언어 지원에서 70개 이상 언어로 대폭 확장되며, 2,000개 이상의 언어 조합에 대해 실시간 통역 서비스를 제공할 예정입니다.

구글은 보안과 신뢰성 확보를 위해 생성된 모든 오디오 출력물에 'SynthID' 워터마크를 삽입했습니다. 이 워터마크는 귀에는 들리지 않지만 시스템상으로 AI 생성 여부를 판별할 수 있게 하여, 허위 정보 확산 방지 등 책임감 있는 AI 배포 원칙을 준수하고 있습니다. 제미나이 3.5 라이브 트랜슬레이트는 현재 구글 번역 앱(Android/iOS) 및 개발자 프리뷰를 통해 순차적으로 배포되고 있습니다.

다른 소식들