38개 업무 워크플로우 LLM 벤치마크: Claude 3.5 Sonnet vs Opus 비교

한 개발자가 어떤 LLM에 작업을 라우팅할지 결정하기 위해 벤치마크 하네스를 구축하여 실제 워크플로우의 38가지 작업으로 15개 모델을 테스트했습니다. 작업에는 CSV 변환, 문자 세기, 모듈러 연산, 형식 준수, 다단계 지시사항 등이 포함되었습니다. 모든 작업은 정규 표현식과 정확한 일치를 사용해 프로그래밍 방식으로 채점되었으며, LLM 판단자는 사용되지 않았습니다.

벤치마크 결과

벤치마크에는 총 $2.29의 비용이 든 570회의 API 호출이 포함되었습니다. 주요 결과:

Claude 3.5 Opus: 100% 점수, 실행당 $0.69, 14.2초
Claude 3.5 Sonnet: 100% 점수, 실행당 $0.20, 5.1초
MiniMax M2.5: 98.60% 점수, 실행당 $0.02, 2.3초
Kimi K2.5: 98.60% 점수, 실행당 $0.05, 3.8초
GPT-oss-20b (로컬): 98.30% 점수, 실행당 $0, 4.1초
Gemini 2.5 Flash: 97.10% 점수, 실행당 $0.00, 1.1초
Claude 3.5 Haiku: 96.90% 점수, 실행당 $0.02, 1.8초

비용-성능 분석

Sonnet과 Opus 모두 100% 점수를 받았지만, Opus가 호출당 비용이 3.5배 더 비쌉니다. 개발자의 일상 작업에서는 Sonnet이 Opus가 처리하는 모든 작업을 처리합니다. Gemini Flash의 실행당 $0.003 대 Opus의 $0.69는 2.9점의 성능 차이에 대해 265배의 비용 차이를 나타냅니다.

놀라운 발견

MiniMax M2.5와 Kimi K2.5 모두 100% 형식 준수와 함께 98.6%를 달성했습니다. 개발자는 벤치마크를 실행하기 전에 이 두 모델을 사용한 적이 없었습니다. 로컬에서 실행된 GPT-oss-20b는 $0의 비용으로 98.3% 점수를 받아 Haiku와 DeepSeek R1을 능가했습니다.

QA 프로세스

품질 보증 프로세스에서 채점 버그가 발견되었습니다. 초기 결과는 Haiku가 Sonnet을 이기는 것으로 나타났는데, 이는 100% 이상의 품질 점수를 생성하는 채점기 버그로 밝혀졌습니다. 서로 다른 모델을 사용한 5번의 QA 패스가 진행되었으며, 각 패스는 이전 패스에서 놓친 버그를 발견했습니다.

개발자는 이러한 결과를 바탕으로 일상 사용 모델을 Sonnet으로 변경하지만, 성능 변동을 고려하여 모델 간 전환을 더 자주 할 계획입니다.

📖 Read the full source: r/ClaudeAI