앤스로픽 내부 데이터 공개: 스스로 코딩하는 AI의 진화와 '재귀적 자가 개선'의 미래

Key Points
- 12026년 5월 기준 앤스로픽 코드베이스에 병합되는 코드의 80% 이상을 클로드 에이전트가 주도적으로 작성하고 있습니다.
- 2클로드 모델은 단순한 코드 생성 보조를 넘어 오픈엔드 디버깅과 실험 최적화 능력을 갖추며 엔지니어 1인당 코드 병합량을 2년 전 대비 8배 상승시켰습니다.
- 3모델의 '연구 판단력'이 상승하면서 연구 방향 설정에 있어서도 점차 인간 전문가의 수준에 도달하고 있습니다.
- 4AI를 통한 코드 자동화 비율이 급증하면서 인간의 코드 리뷰 역량 및 인프라 한계가 전체 개발 속도를 결정짓는 '암달의 법칙' 병목 현상이 발생하고 있습니다.
- 5앤스로픽은 AI의 재귀적 자가 개선이 초래할 통제 불능 리스크에 대비해 글로벌 AI 기업 간의 개발 속도 통제 시스템 구축을 촉구했습니다.
앤스로픽(Anthropic)이 자사 AI 모델의 개발 과정에 AI를 적극적으로 투입하며, AI가 스스로 후속 모델을 설계하는 '재귀적 자가 개선(Recursive self-improvement)' 단계에 빠르게 접근하고 있다고 발표했습니다. 공개 벤치마크뿐만 아니라 앤스로픽 내부의 실제 엔지니어링 지표를 통해, 프론티어 AI의 자체 개발 역량이 폭발적으로 성장하고 있음이 확인되었습니다.
클로드가 주도하는 앤스로픽의 엔지니어링 워크플로우
가장 주목할 만한 변화는 앤스로픽 내부의 코드 작성 방식입니다. 2026년 5월 기준, 앤스로픽 코드베이스에 병합(Merge)되는 전체 코드의 80% 이상을 클로드(Claude)가 작성하고 있습니다. 이는 단순한 자동완성을 넘어, 에이전트가 단독으로 코드를 실행하고 테스트하며 문제를 해결하는 수준에 이르렀음을 의미합니다. 결과적으로 현재 앤스로픽 엔지니어들의 1인당 일일 코드 병합량은 2024년 대비 8배 이상 폭증했습니다.
또한 AI 모델은 명확히 정의된 문제를 넘어 모호한 '오픈엔드(Open-ended)' 문제 해결에도 탁월한 성과를 보이고 있습니다. 일례로 앤스로픽은 라이브 서버에서 발생한 대규모 인시던트를 클로드에 할당한 결과, AI가 수만 개의 작업을 분석하고 환경 변수를 테스트하여 인간 엔지니어가 2~3일 걸릴 디버깅을 단 2시간 만에 완료했다고 밝혔습니다. 이러한 모델의 고난도 작업 성공률은 최근 6개월 만에 50%p 상승하여 76%에 도달했습니다.
연구 판단력의 진화와 '암달의 법칙'
연구 및 실험(Research) 분야에서도 놀라운 발전이 관찰되었습니다. 클로드에게 소형 AI 모델의 학습 코드를 주고 최적화를 지시한 내부 실험에서, 1년 전 모델은 인간 대비 3배의 속도 향상을 이루어낸 반면, 최근 모델인 Mythos Preview는 52배의 속도 향상을 기록했습니다. 인간 연구원이 동일한 작업을 위해 4~8시간을 소요하는 것과 비교하면 비약적인 성과입니다.
연구 방향을 설정하고 유의미한 가설을 채택하는 이른바 '연구적 판단력(Research taste)'은 여전히 인간만의 영역으로 여겨졌으나 이마저도 빠르게 격차가 좁혀지고 있습니다. 인간 연구원이 길을 잃었던 과거의 실험 세션 로그를 기반으로 모델의 판단력을 테스트한 결과, 최근 모델은 64%의 확률로 인간보다 더 나은 다음 단계를 제안했습니다. 다만 앤스로픽은 AI가 실험과 코드 작성을 대부분 자동화함에 따라, 역설적으로 인간의 '코드 리뷰' 역량이나 인프라 병목 현상이 전체 개발 속도를 제한하는 '암달의 법칙(Amdahl's law)' 상황에 직면하고 있다고 경고했습니다.
프론티어 AI의 폭주에 대비한 글로벌 협력 촉구
앤스로픽은 AI가 스스로를 고도화하는 재귀적 자가 개선이 실현될 경우, 지능과 인프라의 발전 속도가 인류의 통제 범위를 단기간에 벗어날 수 있음을 우려했습니다. 이에 따라 The Anthropic Institute를 통해 전 세계 주요 프론티어 AI 기업들이 개발을 일시적으로 늦추거나 멈출 수 있는 '검증 가능한 상호 협력 체계'를 신속히 구축해야 한다고 강조했습니다.
AI가 AI를 만드는 시대: 앤스로픽, '재귀적 자기 개선'과 AI 개발 자동화 현황 공개
앤스로픽이 AI 시스템이 스스로의 후계자를 설계하고 개발하는 '재귀적 자기 개선'의 실질적인 진전 상황을 공개했습니다. 현재 앤스로픽 코드의 80% 이상이 클로드에 의해 작성되고 있으며, 엔지니어 1인당 생산성이 과거 대비 8배 증가하는 등 AI 개발 속도가 가속화되고 있습니다.
텍스트 대신 '레이아웃'으로: 정밀 제어와 SOTA 성능 달성한 이미지 생성 모델 'Reve 2.0' 출시
Reve가 텍스트 프롬프트의 한계를 극복하기 위해 객체의 위치와 크기를 지정하는 '레이아웃' 기반의 이미지 생성 모델 'Reve 2.0'을 출시했습니다. Qwen 모델을 파인튜닝하여 공간 추론 능력을 부여했으며, 10배 적은 연산량으로 벤치마크 최상위권 성능을 기록했습니다.
기업들의 AI 투자 수익률이 기대에 못 미치는 이유 (Bain & Company 분석)
Bain & Company의 2026년 설문조사에 따르면, 다수의 기업이 AI 투자 예산을 늘리고 있으나 실제 비용 절감 효과는 목표치에 미치지 못하고 있습니다. 보고서는 그 원인으로 실제 프로덕션 환경 내 자율형 에이전트의 한계(7%만 완전 자율), 고질적인 데이터 통합 문제, 그리고 기존 워크플로우 부채를 지적하며 조직적 차원의 운영 모델 재설계가 필수적이라고 강조합니다.
