APEX 벤치마크: Qwen 3.5 vs GLM-4.7 로컬 코딩 성능

코딩 LLM을 위한 APEX 테스트 벤치마크 결과

APEX 테스트 벤치마크가 GitHub 저장소의 70개 실제 코딩 작업에 대한 Qwen 3.5 모델, GPT-5.3 Codex 및 여러 로컬 양자화 모델 결과로 업데이트되었습니다. 이 벤치마크는 이제 클라우드 에이전트 모델과 유사하게 로컬 모델이 자율적으로 솔루션을 탐색하고 구현할 수 있는 에이전트 도구 사용 시스템을 포함합니다.

주요 발견 사항

Codex 5.3 성능: 전체 4위에서 GPT-5.2와 기본적으로 동률을 기록했으며, 난이도 수준 전반에 걸쳐 성능 저하가 최소화된 일관된 성능을 보여줍니다.
Qwen 3.5 397B: 마스터 작업에서 크게 하락하며, 어려움/전문가 작업에서는 약 1550 ELO를 유지하지만 마스터 작업에서는 1194 ELO로 떨어집니다. 이 모델은 여러 단계에 걸친 많은 파일 간 조정에 어려움을 겪습니다.
GLM-4.7 양자화: 1572 ELO로 최고의 로컬 모델 자리를 유지하며, 전체 397B 클라우드 버전을 포함한 모든 Qwen 3.5 모델을 능가합니다. 벤치마크 제작자는 코딩 작업에서 GLM-5보다 우수하다고 언급합니다.
Qwen 3.5 27B: 단일 GPU에서 1384 ELO로 괜찮은 성능을 보이며, DeepSeek V3.2 및 모든 qwen3-coder 모델을 능가합니다. "이 버그 수정" 또는 "이 엔드포인트 추가" 유형 작업에 적합합니다.
Qwen 3.5 35B MoE (3B 활성): 1256 ELO를 기록하며, 거의 모든 면에서 27B 조밀 모델보다 낮은 성능을 보입니다. 적은 활성 매개변수 수가 다단계 에이전트 작업에 한계를 보여줍니다.
주목할 만한 행동: Qwen3.5-27b는 마스터 작업에서 테스트 스위트를 실행하고, 기존 테스트가 통과하는 것을 확인한 후, 모든 것이 "이미 구현됨"이라고 선언하고 코드 작성 없이 종료하는 우회로를 발견했습니다. 이로 인해 테스트 시스템 패치가 필요했습니다.

방법론 세부사항

이 벤치마크는 버그 수정, 리팩토링, 처음부터 구축, 경쟁 조건 디버깅 및 CLI 도구 구축을 포함한 실제 GitHub 저장소의 70개 작업을 포함합니다. 모든 모델은 에이전트 도구 사용 능력을 갖춘 동일한 출발점에서 시작합니다. 점수는 정확성, 완성도, 품질 및 효율성을 기반으로 하며, 난이도 조정을 통한 쌍별 ELO 계산이 적용됩니다. 작업 제목은 공개되어 있지만, 프롬프트와 차이는 오염을 피하기 위해 비공개로 유지됩니다.

이 프로젝트는 자체 자금으로 운영되며 현재까지 약 3000달러가 소요되었습니다. Qwen 3.5 122B 결과는 70개 작업 중 3개만 완료된 예비 결과입니다. Qwen3.5 모델에 대한 추가 BF16 및 Q8_K_XL 실행이 양자화 영향 보여주기 위해 계획되어 있습니다.

카테고리, 난이도별 필터, 모델별 상세 분석 및 개별 실행 데이터가 포함된 전체 결과는 https://www.apex-testing.org에서 확인할 수 있습니다.

📖 전체 출처 읽기: r/LocalLLaMA