구글, 실시간 음성 통역 모델 '제미나이 3.5 라이브 트랜슬레이트' 전격 출시

Key Points
- 170개 이상의 언어를 자동 감지하고 실시간에 가까운 속도로 음성 대 음성 번역을 제공합니다.
- 2화자의 억양, 속도, 피치를 정교하게 보존하여 자연스럽고 생생한 번역 음성을 생성합니다.
- 3기존 턴제 방식 대신 스트리밍 기반의 연속 생성 기술을 적용해 대화 지연을 최소화했습니다.
- 4제미나이 라이브 API를 통해 개발자가 직접 다국어 통역 및 더빙 앱을 구축할 수 있도록 지원합니다.
- 5모든 출력 오디오에 SynthID 워터마크를 적용하여 AI 생성 콘텐츠의 투명성과 안전성을 확보했습니다.
구글이 언어의 장벽을 허물기 위한 차세대 AI 기술인 '제미나이 3.5 라이브 트랜슬레이트(Gemini 3.5 Live Translate)'를 공식 발표했습니다. 이번 모델은 단순한 텍스트 번역을 넘어, 실시간에 가까운 속도로 음성을 번역하며 화자의 감정과 뉘앙스까지 전달하는 혁신적인 성능을 보여줍니다.
기존의 번역 시스템이 화자의 말이 끝날 때까지 기다렸다가 번역을 시작하는 '턴제(Turn-by-turn)' 방식이었다면, 제미나이 3.5 라이브 트랜슬레이트는 실시간 스트리밍 처리를 통해 연속적으로 음성을 생성합니다. 이를 통해 지연 시간을 단 몇 초 수준으로 단축하여 대화의 흐름을 끊기지 않게 유지하는 것이 핵심입니다. 또한, 70개 이상의 언어를 자동으로 감지하며, 화자의 고유한 억양, 속도, 피치(음높이)를 그대로 보존해 번역된 음성에서도 원문의 감정적 맥락이 유지되도록 설계되었습니다.
개발자 생태계를 위한 지원도 강력합니다. 개발자들은 제미나이 라이브 API와 구글 AI 스튜디오를 통해 이 모델을 즉시 테스트하고 자신의 서비스에 통합할 수 있습니다. 이미 그랩(Grab), CJ ENM, 라이브킷(LiveKit) 등 글로벌 기업들이 이 모델을 도입하여 다국어 커뮤니케이션 및 콘텐츠 제작 환경을 혁신하고 있습니다. 특히 구글 미트(Google Meet)에서는 이전 5개 언어 지원에서 70개 이상 언어로 대폭 확장되며, 2,000개 이상의 언어 조합에 대해 실시간 통역 서비스를 제공할 예정입니다.
구글은 보안과 신뢰성 확보를 위해 생성된 모든 오디오 출력물에 'SynthID' 워터마크를 삽입했습니다. 이 워터마크는 귀에는 들리지 않지만 시스템상으로 AI 생성 여부를 판별할 수 있게 하여, 허위 정보 확산 방지 등 책임감 있는 AI 배포 원칙을 준수하고 있습니다. 제미나이 3.5 라이브 트랜슬레이트는 현재 구글 번역 앱(Android/iOS) 및 개발자 프리뷰를 통해 순차적으로 배포되고 있습니다.
앤스로픽, 차세대 '미토스급' 모델 클로드 페이블 5 및 미토스 5 전격 출시
앤스로픽이 기존 오퍼스(Opus)급을 뛰어넘는 차세대 ‘미토스(Mythos)급’ AI 모델인 클로드 페이블 5(Claude Fable 5)와 미토스 5를 출시했습니다. 페이블 5는 강력한 성능과 함께 고도화된 보안 가드레일을 갖추었으며, 미토스 5는 보안 전문가 및 연구용으로 제공됩니다.
OpenAI, 'AGI 대중화' 선언… 2028년까지 AI 연구 자동화 및 개인용 AGI 보급 추진
OpenAI가 AGI의 혜택을 전 인류로 확산하기 위한 '3단계 계획'을 발표했습니다. 2028년까지 AI 연구 프로세스를 대폭 자동화하고, 전 세계 모든 이에게 '개인용 AGI'를 제공하겠다는 포부입니다.
앤스로픽, 애플 '파운데이션 모델' 프레임워크와 클로드 연동 지원... 신규 Swift 패키지 출시
앤스로픽이 애플의 파운데이션 모델 프레임워크를 위한 Swift 패키지를 공개하며 클로드와의 연동을 지원합니다. 이를 통해 온디바이스 모델의 효율성과 클로드의 고도화된 추론 능력을 결합한 지능형 앱 구축이 가능해집니다.
