벤치마크 결과: 38가지 실제 업무 워크플로우 작업에서 15개 LLM 평가

✍️ OpenClawRadar📅 게시일: March 10, 2026🔗 Source
벤치마크 결과: 38가지 실제 업무 워크플로우 작업에서 15개 LLM 평가
Ad

한 개발자가 어떤 LLM에 작업을 라우팅할지 결정하기 위해 벤치마크 하네스를 구축하여 실제 워크플로우의 38가지 작업으로 15개 모델을 테스트했습니다. 작업에는 CSV 변환, 문자 세기, 모듈러 연산, 형식 준수, 다단계 지시사항 등이 포함되었습니다. 모든 작업은 정규 표현식과 정확한 일치를 사용해 프로그래밍 방식으로 채점되었으며, LLM 판단자는 사용되지 않았습니다.

벤치마크 결과

벤치마크에는 총 $2.29의 비용이 든 570회의 API 호출이 포함되었습니다. 주요 결과:

  • Claude 3.5 Opus: 100% 점수, 실행당 $0.69, 14.2초
  • Claude 3.5 Sonnet: 100% 점수, 실행당 $0.20, 5.1초
  • MiniMax M2.5: 98.60% 점수, 실행당 $0.02, 2.3초
  • Kimi K2.5: 98.60% 점수, 실행당 $0.05, 3.8초
  • GPT-oss-20b (로컬): 98.30% 점수, 실행당 $0, 4.1초
  • Gemini 2.5 Flash: 97.10% 점수, 실행당 $0.00, 1.1초
  • Claude 3.5 Haiku: 96.90% 점수, 실행당 $0.02, 1.8초

비용-성능 분석

Sonnet과 Opus 모두 100% 점수를 받았지만, Opus가 호출당 비용이 3.5배 더 비쌉니다. 개발자의 일상 작업에서는 Sonnet이 Opus가 처리하는 모든 작업을 처리합니다. Gemini Flash의 실행당 $0.003 대 Opus의 $0.69는 2.9점의 성능 차이에 대해 265배의 비용 차이를 나타냅니다.

Ad

놀라운 발견

MiniMax M2.5와 Kimi K2.5 모두 100% 형식 준수와 함께 98.6%를 달성했습니다. 개발자는 벤치마크를 실행하기 전에 이 두 모델을 사용한 적이 없었습니다. 로컬에서 실행된 GPT-oss-20b는 $0의 비용으로 98.3% 점수를 받아 Haiku와 DeepSeek R1을 능가했습니다.

QA 프로세스

품질 보증 프로세스에서 채점 버그가 발견되었습니다. 초기 결과는 Haiku가 Sonnet을 이기는 것으로 나타났는데, 이는 100% 이상의 품질 점수를 생성하는 채점기 버그로 밝혀졌습니다. 서로 다른 모델을 사용한 5번의 QA 패스가 진행되었으며, 각 패스는 이전 패스에서 놓친 버그를 발견했습니다.

개발자는 이러한 결과를 바탕으로 일상 사용 모델을 Sonnet으로 변경하지만, 성능 변동을 고려하여 모델 간 전환을 더 자주 할 계획입니다.

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

프로액티비티 해제: 커뮤니티의 클로봇 혁신 심층 분석
Tools

프로액티비티 해제: 커뮤니티의 클로봇 혁신 심층 분석

애호가들이 어떻게 창의적인 전략과 커뮤니티 중심의 통찰력을 통해 클로우봇의 적극성을 향상시키고 있는지 알아보세요. r/openclaw에서의 논의와 발견을 살펴봅니다.

OpenClawRadar
공공 보건, 학술 및 정부 데이터를 위한 공개 호스팅 MCP 서버
Tools

공공 보건, 학술 및 정부 데이터를 위한 공개 호스팅 MCP 서버

한 개발자가 CDC 데이터셋, 임상시험, FDA 데이터, 학술 논문, 의회 정보, 날씨 데이터 및 기타 유틸리티에 접근할 수 있는 14개의 MCP 서버를 구축하여 공개적으로 호스팅하고 있습니다. 이 서버들은 설정, API 키 또는 로컬 설치가 필요하지 않습니다.

OpenClawRadar
PeaDB: C++20로 AI 어시스턴트와 함께 코딩된 Redis 호환 데이터베이스
Tools

PeaDB: C++20로 AI 어시스턴트와 함께 코딩된 Redis 호환 데이터베이스

개발자가 Codex, Copilot, Claude를 사용하여 C++20으로 작성된 Redis 7.2.5 드롭인 대체제인 PeaDB를 만들었으며, 지속성, 복제 및 클러스터 지원을 포함해 약 147개의 명령어를 구현했습니다. 벤치마크 결과는 Redis에 근접한 성능을 보여줍니다.

OpenClawRadar
CLAUSE.md 규칙에서 Citadel을 통한 인프라 시행으로 전환
Tools

CLAUSE.md 규칙에서 Citadel을 통한 인프라 시행으로 전환

한 개발자가 CLAUDE.md에 약 100줄 이상의 규칙을 추가하면 준수도가 떨어지는 것을 발견했으며, 해당 파일에는 40%의 중복이 있었습니다. 해결책은 라이프사이클 훅, 스킬, 캠페인 파일을 사용하여 규칙 시행을 지침에서 인프라로 옮기는 것이었고, 이는 오픈소스 시스템인 Citadel로 이어졌습니다.

OpenClawRadar