마이크로소프트 리서치, 3.8B 소형 모델로 대형 모델 성능 압도하는 'Lens' 공개

마이크로소프트 리서치가 데이터 규모보다 고품질 캡션의 중요성을 입증한 3.8B 파라미터 규모의 텍스트-이미지 모델 'Lens'를 발표했습니다. GPT-4.1로 생성된 8억 개의 상세 캡션을 활용해 학습 컴퓨팅 자원을 80% 절감하면서도 SOTA급 성능을 달성한 것이 특징입니다.

마이크로소프트 리서치(Microsoft Research)가 데이터의 물리적 규모보다 정교한 캡션이 모델 효율성에 미치는 영향을 입증한 차세대 텍스트-이미지 생성 모델 'Lens'를 공개했습니다. 3.8B 파라미터 규모의 이 모델은 훨씬 더 큰 규모의 경쟁 모델들과 대등한 성능을 보이면서도 학습에 필요한 컴퓨팅 자원은 5분의 1 수준으로 대폭 줄였습니다.

Lens의 핵심 혁신은 'Lens-800M' 데이터셋에 있습니다. 연구진은 웹에서 수집한 부정확한 대체 텍스트(alt-text) 대신, GPT-4.1을 사용해 생성한 평균 100단어 분량의 상세한 캡션을 포함한 8억 개의 이미지-텍스트 쌍을 학습에 활용했습니다. 이러한 고품질 데이터 덕분에 모델은 더 적은 학습 단계에서도 빠르게 수렴할 수 있었으며, 다양한 해상도와 화면 비율을 동시에 처리하는 범용성까지 확보했습니다.

기술적 구조 측면에서 Lens는 FLUX.2의 시맨틱 VAE와 오픈아이의 오픈소스 언어 모델인 GPT-OSS를 텍스트 인코더로 채택했습니다. 특히 강력한 언어 인코더 덕분에 영어 데이터로만 학습되었음에도 불구하고 한국어, 중국어, 프랑스어 등 다국어 프롬프트를 이해하고 처리할 수 있는 능력을 보여줍니다. 또한 모델 전면에 '추론기(Reasoner)'를 배치하여 모호한 사용자 입력을 상세한 프롬프트로 재작성함으로써 생성 품질을 극대화했습니다.

성능 위주의 표준 모델 외에도 마이크로소프트는 단 4단계 만에 이미지를 생성하는 증류 모델 'Lens-Turbo'를 함께 선보였습니다. Lens-Turbo는 H100 GPU 기준 1초 미만의 속도로 고해상도 이미지를 생성할 수 있어 실시간 서비스 응용 가능성을 높였습니다. 현재 Lens의 코드와 가중치는 MIT 라이선스로 허깅페이스와 깃허브에 공개되어 연구 목적으로 활용 가능합니다.

마이크로소프트 리서치, 3.8B 소형 모델로 대형 모델 성능 압도하는 'Lens' 공개

Key Points

WWDC26: 애플, 차세대 ‘애플 인텔리전스’와 강력해진 ‘Siri AI’ 전격 공개

OpenAI, AI 경제 파급 효과 분석을 위한 '경제 연구 거래소(Economic Research Exchange)' 출범

앤스로픽, 클로드 커넥터 개발자용 관측성 도구 및 인앱 제출 기능 공개