AI 코드 리뷰 벤치마크: Claude 53% vs Gemini, Codex, Qwen, MiniMax

AI 코드 리뷰 성능 비교

최근 실험에서 오픈소스 벡터 데이터베이스인 Milvus의 15개 풀 리퀘스트를 사용해 5개의 주요 AI 모델을 코드 리뷰용으로 벤치마크했습니다. 각 PR에는 병합 후 실제 운영에서 발견된 알려진 버그가 포함되어 있어 현실적인 테스트 세트를 제공했습니다.

테스트된 모델은 다음과 같습니다:

벤치마크는 Magpie라는 오픈소스 도구를 사용했으며, 이 도구는 모델에 입력하기 전에 주변 코드, 호출 체인, 관련 모듈을 가져와 컨텍스트를 준비합니다.

버그는 난이도에 따라 분류되었습니다:

두 가지 평가 모드가 사용되었습니다:

전체 탐지율 (L2 + L3만):

Claude는 원시 리뷰에서 53% 탐지율로 압도적 성능을 보였으며 L3 버그에서 완벽한 5/5 성적을 기록했습니다. 이 모델은 자체적으로 컨텍스트를 구성하는 데 탁월하여 추가 컨텍스트가 오히려 성능을 저하시켰습니다.

Gemini는 원시 모드에서 저조한 성능(13%)을 보였지만 컨텍스트 제공 시 크게 향상된 성능(33%)을 보여, 사전에 컨텍스트가 제공되어야 함을 시사합니다.

Qwen은 컨텍스트 지원 모드에서 40%로 가장 강력한 성능을 보였으며, L2 버그 탐지에서 가장 높은 성적(5/10)을 기록했습니다.

모델들이 서로 5라운드 동안 토론할 때 버그 탐지율은 53%(단일 모델 최고 성능)에서 80%로 급증했습니다. 가장 어려운 L3 버그는 토론 모드에서 100% 탐지율에 도달했습니다.

이 실험은 서로 다른 모델이 상호 보완적 강점을 가지고 있음을 보여줍니다: Claude의 철저함, 컨텍스트 제공 시 Gemini의 설계 중심 분석, Codex의 구체적 실행 가능한 피드백, 그리고 Qwen의 강력한 컨텍스트 지원 성능.

📖 전체 출처 읽기: HN AI Agents