클로드 코드 벤치마크 버그: AI 평가자 인프라 결함이 모델 능력 오인

벤치마크 설정 및 초기 결과

개발자가 자율 평가자로 클로드 코드(Opus 4.6)를 사용하여 세 가지 코딩 에이전트 스택에 대해 통제된 벤치마크를 실행했습니다. 벤치마크는 OpenCode + MiniMax-M2.7, Gemini CLI + Gemini 3.1 Pro, Codex CLI + GPT-5.4를 테스트했습니다. 각 재테스트는 세션 간 메모리가 없는 새로운 세션으로, "벤치마크 계획을 실행하고, 아티팩트를 수집하며, 보고서를 작성하라"는 프롬프트를 사용했습니다.

처음 두 실행에서 OpenCode + MiniMax는 각각 15/60점과 16/60점을 받았습니다. 자동 생성된 보고서는 다음과 같이 명시했습니다: "이전 결과와 일치: 빠른 실행이지만 의미 있는 코드 출력 없음" 및 "일관적: MiniMax는 작업을 구현할 수 없음. 이 모델은 이 Rust 코드베이스에서 외부 파일을 읽고 코드 변경을 생성하는 능력이 부족할 수 있음."

버그 발견

모델을 비난하는 동일한 판정을 생성한 두 세션 후, 개발자는 새로운 세션에 하나의 지시를 보냈습니다: "더 깊이 파고들어, 재시도 전에 데몬 로그를 확인하라." 새로운 세션은 ~/.orchestratord/logs/<task_id>.txt에 있는 스필 파일로 문제를 추적했습니다. 계획 단계는 50KB의 유용한 컨텍스트를 생성하고 있었지만, OpenCode의 샌드박스는 기본적으로 작업 공간 디렉토리 내부의 읽기만 허용했습니다. 스필 파일이 작업 공간 외부에 있었기 때문에, 구현 단계는 계획 대신 빈 문자열을 받았습니다.

세션은 한 줄의 구성 수정(스필 경로를 작업 공간 내부로 이동)을 제출하고 벤치마크를 다시 실행했습니다. 수정 후, MiniMax는 RetryConfig 구조체와 connect_with_retry 헬퍼를 포함한 219줄의 코드를 생성하며 18/60점을 받았습니다. 남은 문제들은 실제 모델 약점이었습니다: 단위 테스트에서 네 개의 타입 불일치 컴파일 오류.

AI 평가에 대한 함의

이 사건은 자율 AI 평가자의 중요한 맹점을 드러냅니다: 그들은 자신의 분석이 "외부 파일을 읽는 능력이 부족할 수 있음"과 같은 증상을 식별할 때조차 "내 파이프라인이 고장났는가?"라고 묻지 않습니다. 처음 두 세션은 전체 벤치마크를 종단 간 실행하고 포괄적인 보고서를 생성했지만, 스스로 데몬 로그를 확인하지 않았습니다. 명시적으로 조사하라고 지시받았을 때만 세 번째 세션이 구성 버그를 발견했습니다.

이 실패 모드는 LLM-평가자가 아레나 스타일 자동 채점, 내부 A/B 하네스, 보상 모델링을 포함한 많은 에이전트 벤치마크의 기본 평가 방법론이 되면서 특히 관련이 있습니다. 개발자는 다음과 같이 언급합니다: "저는 샌드박스 버그를 모델로 확신하며 잘못 귀속시킨 벤치마크를 발표할 뻔했습니다."