텍스트 대신 '레이아웃'으로: 정밀 제어와 SOTA 성능 달성한 이미지 생성 모델 'Reve 2.0' 출시

Reve가 텍스트 프롬프트의 한계를 극복하기 위해 객체의 위치와 크기를 지정하는 '레이아웃' 기반의 이미지 생성 모델 'Reve 2.0'을 출시했습니다. Qwen 모델을 파인튜닝하여 공간 추론 능력을 부여했으며, 10배 적은 연산량으로 벤치마크 최상위권 성능을 기록했습니다.

텍스트 프롬프트의 모호성을 극복하고 이미지 생성의 정밀한 제어를 가능하게 하는 새로운 패러다임의 모델 'Reve 2.0'이 공식 출시되었습니다. Reve 연구팀은 3일(현지시간) 공식 블로그를 통해, 자연어 대신 구조화된 '레이아웃(Layout)'을 시각적 이해와 생성의 매개체로 사용하는 대규모 레이아웃 모델(Large Layout Model)을 개발했다고 발표했습니다.

기존 이미지 생성 모델들은 사용자의 텍스트 프롬프트를 대규모 언어 모델(LLM)로 확장한 뒤 픽셀을 렌더링하는 방식을 사용했습니다. 그러나 텍스트 특성상 색상이나 객체의 정확한 위치 등을 세밀하게 제어하는 데는 근본적인 한계가 있었습니다. Reve 2.0은 각 요소의 위치, 크기, 로컬 설명 및 속성(이미지 참조, 색상 등)을 포함하는 계층적 구조인 '레이아웃'을 도입하여 시맨틱 의도와 픽셀 렌더링을 완전히 분리했습니다. 이를 통해 사용자는 자연어 명령어 외에도 레이아웃 구조를 직접 편집하여 결과물을 정밀하게 수정할 수 있게 되었습니다.

Reve 연구팀은 새로운 아키텍처 구현을 위해 수십억 장의 이미지 데이터를 바탕으로 고밀도 인간 주석 기반의 독자적인 데이터 파이프라인을 구축했습니다. 또한, 오픈소스 모델인 Qwen을 기반으로 레이아웃 표현에 대한 공간 추론 능력을 극대화하기 위해 지속적인 사전 학습(Continued pretraining)과 포스트 트레이닝을 적용했습니다. 대규모 절제 연구(Ablation study) 결과, 레이아웃 기반 모델이 동일한 크기의 프롬프트 기반 생성기보다 전반적으로 훨씬 더 뛰어난 이미지를 생성하는 것으로 나타났습니다.

Text-to-Image 어레나 벤치마크 결과에 따르면, Reve 2.0은 10배 적은 GPU 자원을 사용했음에도 전체 종합 평가에서 1280.4점을 기록하며 GPT Image 2에 이어 2위를 차지했습니다. 텍스트 렌더링, 상업 디자인, 실사(Photorealistic) 등 주요 카테고리에서 프롬프트 기반 SOTA 모델들을 상회하거나 대등한 성능을 입증했습니다. 특히, 픽셀 정보 없이 레이아웃의 영역(Region) 수만 늘려도 원본 이미지의 미세한 디테일을 완벽에 가깝게 재구성(Reconstruction)할 수 있었으며, 모델 크기와 출력 영역 수가 증가함에 따라 생성 품질이 지속적으로 향상되는 '스케일링 법칙(Scaling laws)'이 성립함을 확인했습니다.

Reve 팀은 "레이아웃은 인간과 AI 에이전트가 공유할 수 있는 코드 형태의 중간 표현체로서, 이미지 생성을 일종의 프로그램 합성(Program synthesis)으로 다루기 위한 첫걸음"이라며, "이러한 확고한 기반을 바탕으로 향후 모델의 스케일링을 더욱 가속화할 계획"이라고 밝혔습니다.

텍스트 대신 '레이아웃'으로: 정밀 제어와 SOTA 성능 달성한 이미지 생성 모델 'Reve 2.0' 출시

Key Points

기업들의 AI 투자 수익률이 기대에 못 미치는 이유 (Bain & Company 분석)

AI 예산 증대에도 수익 정체... 베인앤컴퍼니, "데이터·조직 혁신 없는 AI는 실패"

클라우드플레어 CEO "인터넷 역사상 최초로 봇(Bot) 트래픽이 인간 추월... '에이전트 트래픽' 급증 여파"