마이크로소프트 리서치, 3.8B 소형 모델로 대형 모델 성능 압도하는 'Lens' 공개

Key Points
- 13.8B 파라미터 규모로 80B 규모의 대형 모델들과 대등한 성능을 구현하며 모델 효율성 입증.
- 2GPT-4.1을 활용해 생성한 8억 개의 상세 캡션 기반 'Lens-800M' 데이터셋으로 학습 품질 혁신.
- 3기존 모델 대비 학습 컴퓨팅 자원을 약 80% 절감하며 데이터 정제 기반의 최적화 방법론 제시.
- 4GPT-OSS 텍스트 인코더를 통해 영어 외 다국어 프롬프트를 처리할 수 있는 제로샷 능력 확보.
- 51초 미만의 속도로 이미지를 생성하는 실시간 최적화 모델 'Lens-Turbo' 및 코드 전격 공개.
마이크로소프트 리서치(Microsoft Research)가 데이터의 물리적 규모보다 정교한 캡션이 모델 효율성에 미치는 영향을 입증한 차세대 텍스트-이미지 생성 모델 'Lens'를 공개했습니다. 3.8B 파라미터 규모의 이 모델은 훨씬 더 큰 규모의 경쟁 모델들과 대등한 성능을 보이면서도 학습에 필요한 컴퓨팅 자원은 5분의 1 수준으로 대폭 줄였습니다.
Lens의 핵심 혁신은 'Lens-800M' 데이터셋에 있습니다. 연구진은 웹에서 수집한 부정확한 대체 텍스트(alt-text) 대신, GPT-4.1을 사용해 생성한 평균 100단어 분량의 상세한 캡션을 포함한 8억 개의 이미지-텍스트 쌍을 학습에 활용했습니다. 이러한 고품질 데이터 덕분에 모델은 더 적은 학습 단계에서도 빠르게 수렴할 수 있었으며, 다양한 해상도와 화면 비율을 동시에 처리하는 범용성까지 확보했습니다.
기술적 구조 측면에서 Lens는 FLUX.2의 시맨틱 VAE와 오픈아이의 오픈소스 언어 모델인 GPT-OSS를 텍스트 인코더로 채택했습니다. 특히 강력한 언어 인코더 덕분에 영어 데이터로만 학습되었음에도 불구하고 한국어, 중국어, 프랑스어 등 다국어 프롬프트를 이해하고 처리할 수 있는 능력을 보여줍니다. 또한 모델 전면에 '추론기(Reasoner)'를 배치하여 모호한 사용자 입력을 상세한 프롬프트로 재작성함으로써 생성 품질을 극대화했습니다.
성능 위주의 표준 모델 외에도 마이크로소프트는 단 4단계 만에 이미지를 생성하는 증류 모델 'Lens-Turbo'를 함께 선보였습니다. Lens-Turbo는 H100 GPU 기준 1초 미만의 속도로 고해상도 이미지를 생성할 수 있어 실시간 서비스 응용 가능성을 높였습니다. 현재 Lens의 코드와 가중치는 MIT 라이선스로 허깅페이스와 깃허브에 공개되어 연구 목적으로 활용 가능합니다.
WWDC26: 애플, 차세대 ‘애플 인텔리전스’와 강력해진 ‘Siri AI’ 전격 공개
애플이 WWDC26에서 차세대 ‘애플 인텔리전스’와 완전히 새로워진 ‘Siri AI’를 공개하며 온디바이스 AI 생태계의 확장을 선언했습니다. 개인화된 맥락 이해와 프라이버시 보호 아키텍처를 기반으로 iOS 27 등 주요 OS 전반에 강력한 AI 기능을 통합했습니다.
OpenAI, AI 경제 파급 효과 분석을 위한 '경제 연구 거래소(Economic Research Exchange)' 출범
OpenAI가 AI가 일자리와 생산성에 미치는 영향을 분석하기 위해 외부 연구자들과 협력하는 '경제 연구 거래소'를 설립했습니다. OpenAI의 데이터와 도구를 활용해 실증적인 경제 연구를 수행할 연구진을 모집합니다.
앤스로픽, 클로드 커넥터 개발자용 관측성 도구 및 인앱 제출 기능 공개
앤스로픽이 MCP 기반 커넥터의 성능 모니터링과 디렉토리 제출을 지원하는 신규 기능을 출시했습니다. 개발자는 이제 실시간으로 오류와 지연 시간을 진단하고 클로드 앱 내에서 직접 커넥터를 등록할 수 있습니다.
