AI 코드 리뷰 벤치마크: Claude, Gemini, Codex, Qwen, MiniMax 비교

AI 코드 리뷰 성능 비교
최근 실험에서 오픈소스 벡터 데이터베이스인 Milvus의 15개 풀 리퀘스트를 사용해 5개의 주요 AI 모델을 코드 리뷰용으로 벤치마크했습니다. 각 PR에는 병합 후 실제 운영에서 발견된 알려진 버그가 포함되어 있어 현실적인 테스트 세트를 제공했습니다.
모델 및 설정
테스트된 모델은 다음과 같습니다:
- Claude Opus 4.6
- Gemini 3 Pro
- GPT-5.2-Codex
- Qwen-3.5-Plus
- MiniMax-M2.5
벤치마크는 Magpie라는 오픈소스 도구를 사용했으며, 이 도구는 모델에 입력하기 전에 주변 코드, 호출 체인, 관련 모듈을 가져와 컨텍스트를 준비합니다.
버그 난이도 수준
버그는 난이도에 따라 분류되었습니다:
- L1: diff만으로 확인 가능 (모든 모델이 이를 발견했으므로 점수에서 제외)
- L2 (10개 사례): 주변 코드 이해 필요 (인터페이스 변경, 동시성 경합)
- L3 (5개 사례): 시스템 수준 이해 필요 (모듈 간 불일치, 업그레이드 호환성)
모델별 결과
두 가지 평가 모드가 사용되었습니다:
- 원시: 모델이 PR diff와 내용만 확인
- R1: Magpie가 주변 컨텍스트 제공
전체 탐지율 (L2 + L3만):
- Claude: 원시 53%, 컨텍스트 47%
- Gemini: 원시 13%, 컨텍스트 33%
- Codex: 원시 33%, 컨텍스트 27%
- MiniMax: 원시 27%, 컨텍스트 33%
- Qwen: 원시 33%, 컨텍스트 40%
주요 발견 사항
Claude는 원시 리뷰에서 53% 탐지율로 압도적 성능을 보였으며 L3 버그에서 완벽한 5/5 성적을 기록했습니다. 이 모델은 자체적으로 컨텍스트를 구성하는 데 탁월하여 추가 컨텍스트가 오히려 성능을 저하시켰습니다.
Gemini는 원시 모드에서 저조한 성능(13%)을 보였지만 컨텍스트 제공 시 크게 향상된 성능(33%)을 보여, 사전에 컨텍스트가 제공되어야 함을 시사합니다.
Qwen은 컨텍스트 지원 모드에서 40%로 가장 강력한 성능을 보였으며, L2 버그 탐지에서 가장 높은 성적(5/10)을 기록했습니다.
적대적 토론 결과
모델들이 서로 5라운드 동안 토론할 때 버그 탐지율은 53%(단일 모델 최고 성능)에서 80%로 급증했습니다. 가장 어려운 L3 버그는 토론 모드에서 100% 탐지율에 도달했습니다.
이 실험은 서로 다른 모델이 상호 보완적 강점을 가지고 있음을 보여줍니다: Claude의 철저함, 컨텍스트 제공 시 Gemini의 설계 중심 분석, Codex의 구체적 실행 가능한 피드백, 그리고 Qwen의 강력한 컨텍스트 지원 성능.
📖 전체 출처 읽기: HN AI Agents
👀 See Also

Claude Code와 MCP를 사용한 Datadog 경고 트라이아지 자동화
한 개발자가 Claude Code 기술과 Datadog의 MCP 서버를 활용하여 cron 작업을 통해 모니터링 경고를 자동으로 확인하고, 문제를 분류하며, 수정 PR을 여는 시스템을 구축했습니다. 이 설정은 약 30분이 소요되며, 격리된 작업 트리에서 병렬 AI 에이전트를 실행합니다.

개발자가 18개의 전자상거래 도구를 Claude에 연결하는 MCP 서버를 구축합니다
한 개발자가 18개의 전자상거래 플랫폼과 도구를 Claude와 통합하는 MCP 서버를 만들어 여러 데이터 소스 간의 교차 참조 질의를 가능하게 했습니다. 이 프로젝트는 몇 달이 아닌 며칠 만에 주로 Claude Code(Opus)를 사용하여 구축되었습니다.

NERF 오픈 소스 AI 보안 엔지니어링 플랫폼, 공개 베타 시작
NERF는 117개 도메인에 걸쳐 공격적, 방어적, 프라이버시 보안 기술을 포괄하는 오픈 소스 AI 보안 엔지니어링 플랫폼 및 자율 코딩 에이전트입니다. 9개의 자동 감지 운영 모드, 26개 LLM 제공업체 지원, 39개 프레임워크에 대한 규정 준수 자동화 기능을 갖추고 있습니다.

클로드의 캔바 통합: 디자인 생성을 위한 실용적인 워크플로우
Claude의 Canva 커넥터는 단순한 이미지가 아닌 구조화된 레이아웃으로 편집 가능한 Canva 프로젝트를 내보냅니다. 이 게시물은 프롬프트에서 완성된 캐러셀까지 12~15분이 걸리는 워크플로우를 설정, 고충실도 모드, 솔직한 한계를 포함하여 설명합니다.