6가지 저비용 모델 vs. 클로드 소넷 4.6: 오픈클로 오케스트레이션 벤치마크

한 개발자가 OpenClaw AI 코딩 에이전트 설정의 메인 오케스트레이터로 Claude Sonnet 4.6보다 저렴한 대안을 찾기 위해 벤치마크를 실행했습니다. 테스트는 실제 파일과 도구를 사용한 일관된 5개 작업 연속 테스트로 진행되었으며, 단계별 안내 프롬프트 없이 수행되었습니다.

연속 테스트 작업

T1: 특정 파일에서 세부 정보 회상 (MEMORY.md 열린 항목)
T2: 파일 검사, 불완전성 발견, 상호 참조 + 우선순위 지정
T3: 셸 명령 실행, 정확한 출력 파싱 및 보고
T4: 위임 작업 발견 및 정확히 넘기기
T5: 결과를 실행 요약으로 종합

벤치마크 결과

백만 출력 토큰당 비용과 함께 5점 만점 원점수:

Claude Sonnet 4.6: 5/5 ($15/M) – 기준선, 전체 작업을 완벽하게 처리
o4-mini: 5/5 ($4.40/M) – 71% 저렴, 모든 작업 완수했으나 추론 체인에서 눈에 띄는 지연 발생
Grok 4.1 Fast: 3/5 ($0.50/M) – T1/T3/T5 압도적 성과, T2에서 심각한 실패 (SMS 로그 4줄 읽고 "모두 정상" 선언)
Gemini 2.5 Flash: 1/5 ($2.50/M) – T1 완수, 이후 프롬프트 중간에 응답 중단
DeepSeek V3.2: 0/5 ($0.42/M) – 2초 실행 시간, 출력 없음
Llama 4 Maverick: 실격 ($0.60/M) – 파일 내용 환각, 2024년 날짜의 가짜 비디오 파일명 생성 (현재 연도는 2026년), 실제 도구 호출 없음

핵심 발견: 판단력 격차

중요한 실패 지점은 T2 파일 판단이었습니다. 모델들은 짧은 로그(4줄: SMS 전송됨, 완료)를 읽고, 불완전함을 인지하고, MEMORY.md로 전환하여 작업 공간 전체의 모든 열린 항목을 나열한 후, 올바르게 우선순위를 지정해야 했습니다(3월 19일 의료 예약 > cron 오류 > 기타). 오직 Sonnet과 o4-mini만 성공했습니다. 다른 모델들은 이 작업에서 "게으르거나 맹목적"으로 평가되었습니다.