KirinNews

마이크로소프트 리서치, 3.8B 소형 모델로 대형 모델 성능 압도하는 'Lens' 공개

마이크로소프트 리서치, 3.8B 소형 모델로 대형 모델 성능 압도하는 'Lens' 공개

Key Points

  • 13.8B 파라미터 규모로 80B 규모의 대형 모델들과 대등한 성능을 구현하며 모델 효율성 입증.
  • 2GPT-4.1을 활용해 생성한 8억 개의 상세 캡션 기반 'Lens-800M' 데이터셋으로 학습 품질 혁신.
  • 3기존 모델 대비 학습 컴퓨팅 자원을 약 80% 절감하며 데이터 정제 기반의 최적화 방법론 제시.
  • 4GPT-OSS 텍스트 인코더를 통해 영어 외 다국어 프롬프트를 처리할 수 있는 제로샷 능력 확보.
  • 51초 미만의 속도로 이미지를 생성하는 실시간 최적화 모델 'Lens-Turbo' 및 코드 전격 공개.
마이크로소프트 리서치가 데이터 규모보다 고품질 캡션의 중요성을 입증한 3.8B 파라미터 규모의 텍스트-이미지 모델 'Lens'를 발표했습니다. GPT-4.1로 생성된 8억 개의 상세 캡션을 활용해 학습 컴퓨팅 자원을 80% 절감하면서도 SOTA급 성능을 달성한 것이 특징입니다.

마이크로소프트 리서치(Microsoft Research)가 데이터의 물리적 규모보다 정교한 캡션이 모델 효율성에 미치는 영향을 입증한 차세대 텍스트-이미지 생성 모델 'Lens'를 공개했습니다. 3.8B 파라미터 규모의 이 모델은 훨씬 더 큰 규모의 경쟁 모델들과 대등한 성능을 보이면서도 학습에 필요한 컴퓨팅 자원은 5분의 1 수준으로 대폭 줄였습니다.

Lens의 핵심 혁신은 'Lens-800M' 데이터셋에 있습니다. 연구진은 웹에서 수집한 부정확한 대체 텍스트(alt-text) 대신, GPT-4.1을 사용해 생성한 평균 100단어 분량의 상세한 캡션을 포함한 8억 개의 이미지-텍스트 쌍을 학습에 활용했습니다. 이러한 고품질 데이터 덕분에 모델은 더 적은 학습 단계에서도 빠르게 수렴할 수 있었으며, 다양한 해상도와 화면 비율을 동시에 처리하는 범용성까지 확보했습니다.

기술적 구조 측면에서 Lens는 FLUX.2의 시맨틱 VAE와 오픈아이의 오픈소스 언어 모델인 GPT-OSS를 텍스트 인코더로 채택했습니다. 특히 강력한 언어 인코더 덕분에 영어 데이터로만 학습되었음에도 불구하고 한국어, 중국어, 프랑스어 등 다국어 프롬프트를 이해하고 처리할 수 있는 능력을 보여줍니다. 또한 모델 전면에 '추론기(Reasoner)'를 배치하여 모호한 사용자 입력을 상세한 프롬프트로 재작성함으로써 생성 품질을 극대화했습니다.

성능 위주의 표준 모델 외에도 마이크로소프트는 단 4단계 만에 이미지를 생성하는 증류 모델 'Lens-Turbo'를 함께 선보였습니다. Lens-Turbo는 H100 GPU 기준 1초 미만의 속도로 고해상도 이미지를 생성할 수 있어 실시간 서비스 응용 가능성을 높였습니다. 현재 Lens의 코드와 가중치는 MIT 라이선스로 허깅페이스와 깃허브에 공개되어 연구 목적으로 활용 가능합니다.

다른 소식들