GitHub, 코파일럿 CLI에 교차 모델 검토 시스템 '러버 덕(Rubber Duck)' 도입

Key Points
- 1서로 다른 AI 모델 제품군(예: Claude와 GPT)을 조합하여 에이전트의 계획과 코드를 상호 검토하는 시스템입니다.
- 2Claude Sonnet 4.6과 Rubber Duck 조합 시, 상위 모델인 Opus와의 성능 격차를 약 75% 수준까지 극복했습니다.
- 3계획 수립 후, 구현 후, 테스트 실행 전 등 고해상도 피드백이 필요한 시점에 자동 또는 수동으로 개입합니다.
- 4멀티 파일 수정이 필요한 복잡한 아키텍처 설계나 감지하기 어려운 논리적 버그를 식별하는 데 최적화되어 있습니다.
- 5GitHub Copilot CLI의 실험적 모드(/experimental)를 통해 현재 즉시 사용 가능합니다.
GitHub이 코딩 에이전트의 판단 오류를 줄이고 더 정교한 아키텍처 설계를 돕기 위해 '러버 덕(Rubber Duck)' 기능을 GitHub 코파일럿 CLI의 실험적 모드로 도입했습니다. 이 기능의 핵심은 주 모델(Orchestrator)이 세운 계획과 구현 결과물을 서로 다른 학습 배경을 가진 '제2의 모델'이 독립적인 검토자로서 평가하도록 하는 '교차 모델 검토(Cross-family review)' 전략입니다.
오늘날의 코딩 에이전트는 계획, 구현, 테스트의 루프를 따르지만, 초기 계획 단계에서 발생한 미세한 오류가 후속 작업에서 눈덩이처럼 불어나는 '자기 강화적 오류'의 위험을 안고 있습니다. 특히 단일 모델이 자신의 작업을 스스로 검토할 경우 동일한 학습 편향(Bias)으로 인해 오류를 식별하지 못할 가능성이 큽니다. 러버 덕은 예를 들어 클로드 4.6(Claude 4.6)을 주 모델로 사용할 때 GPT-5.4를 검토자로 배치함으로써, 보완적인 시각을 통해 논리적 결함이나 엣지 케이스를 잡아냅니다.
GitHub의 SWE-Bench Pro 평가 결과에 따르면, 클로드 소네트 4.6과 러버 덕(GPT-5.4)을 조합했을 때 소네트와 최상위 모델인 오퍼스(Opus) 간의 성능 격차를 74.7%나 줄이는 것으로 나타났습니다. 특히 3개 이상의 파일을 수정하거나 70단계 이상의 긴 작업이 필요한 복잡한 문제에서 성능 향상이 두드러졌습니다. 실제 사례에서는 무한 루프에 빠질 수 있는 스케줄러 설계 오류나, 검색 쿼리에서 데이터가 누락되는 로직 버그 등을 사전에 감지하는 성과를 거두었습니다.
러버 덕은 에이전트 워크플로우의 주요 체크포인트에서 자동으로 활성화됩니다. 구체적으로는 ▲초기 계획 수립 직후 ▲복잡한 코드 구현 완료 후 ▲테스트 실행 직전 등 피드백의 가치가 가장 높은 순간에 개입합니다. 또한 에이전트가 루프에 빠져 진전이 없을 때 반응형으로 호출되거나, 사용자가 수동으로 검토를 요청할 수도 있습니다. 현재 이 기능은 코파일럿 CLI에서 /experimental 명령어를 통해 활성화할 수 있으며, 클로드 제품군 모델을 주 모델로 사용할 때 우선 지원됩니다.
