DeepSeek V3.2 등 오픈소스, MMLU-Pro 등 4개 벤치마크서 Opus 4.6 능가

벤치마크 결과

오픈소스 모델과 Claude Opus 4.6의 상세 비교 결과, 여러 카테고리에서 경쟁력 있거나 우수한 성능을 보여줍니다.

일반 추론: DeepSeek V3.2

DeepSeek V3.2는 독점 모델과 견줄 만하며, 고성능 버전(V3.2-Speciale)은 GPT-5를 능가합니다.

SWE-bench Verified: Claude Opus 4.6: 80.8%, DeepSeek V3.2: 73.0%
LiveCodeBench: Claude Opus 4.6: 76, DeepSeek V3.2: 74.1
MMLU-Pro: DeepSeek V3.2: 85.0%, Claude Opus 4.6: 82.0%

DeepSeek V3.2는 강력한 다국어 지원(CJK, 아랍어, 유럽 언어), 128K 컨텍스트와 희소 주의 메커니즘을 갖추고 있지만, 창의적 글쓰기와 일부 구조화된 출력의 특수한 경우에서는 부족합니다. 추론: 출력 ~60 토큰/초, TTFT 1.18초, 128K 컨텍스트. 일반 사용 사례의 90% 이상에서 프로덕션 준비 완료. GPT-5보다 5배, Opus 4.6보다 20배 저렴합니다.

추론: DeepSeek R1

DeepSeek R1은 여러 벤치마크에서 고가의 추론 모델을 능가합니다.

Humanity's Last Exam: DeepSeek R1: 50.2%, Claude Opus 4.6: 40.0%
MMLU-Pro: DeepSeek R1: 88.9%, Claude Opus 4.6: 82.0%

추론: 출력 ~30 토큰/초, TTFT ~2초. 사고 과정 연쇄 처리로 인해 비추론 모델보다 느립니다. 최고의 오픈소스 추론 모델입니다. HLE에서 GPT-5.2 Pro와 동등합니다. o1보다 30배 저렴합니다.

에이전트: Kimi K2.5

1조 개의 파라미터(MoE를 통해 토큰당 32B 활성). 256K 컨텍스트. 수정된 MIT 라이선스 하에 오픈소스입니다.

도구 사용 개선: Kimi K2.5: +20.1점, Claude Opus 4.6: +12.4점, GPT-5.2: +11.0점
SWE-bench Verified: Claude Opus 4.6: 80.8%, Kimi K2.5: 76.8%
Humanity's Last Exam: Kimi K2.5: 50.2%, Claude Opus 4.6: 40.0%

최대 100개의 하위 에이전트를 병렬로 생성하고, 인간 개입 없이 1,500개 이상의 도구 호출을 처리할 수 있습니다. 추론: 출력 334 토큰/초, TTFT 0.31초. 자율 에이전트 작업 부하에 최적의 모델입니다. 가장 빠른 TTFT, 최고의 도구 사용, 모든 벤치마크에서 경쟁력 있습니다.

코드: MiniMax M2.5

MiniMax M2.5은 최고의 코딩 모델 중 하나가 되었습니다.

SWE-bench Verified: Claude Opus 4.6: 80.8%, MiniMax M2.5: 80.2%, GLM-5: 77.8%

MiniMax는 3월 18일 M2.7을 출시했습니다 — "자기 진화" 모델로, 백만 토큰당 $0.30/$1.20입니다. 코딩 정확도 96번째 백분위수, 일반 지식에서 완벽한 점수. 이용 가능한 가장 저렴한 최첨단 모델 중 하나입니다. 오픈소스 코딩 모델이 최고의 독점 모델과 효과적으로 맞먹습니다.

속도 비교

프로덕션에서는 품질만큼 지연 시간도 중요합니다.

출력 속도(토큰/초):

Kimi K2.5 Turbo: 334
Llama 3.1 8B: ~200
GLM 4.7 Flash: ~150
DeepSeek V3.2: ~60
Claude Opus 4.6: 46
DeepSeek R1: ~30

첫 토큰까지의 시간(TTFT):

Llama 3.1 8B: 0.2초
Kimi K2.5 Turbo: 0.31초
GLM 4.7 Flash: 0.51초
DeepSeek V3.2: 1.18초

Kimi K2.5의 334 토큰/초는 Opus의 46 토큰/초보다 7배 빠릅니다.

비전

오픈소스 비전은 문서 처리와 표준 이미지 분석에서 따라잡았습니다. Llama 4 Scout, Qwen VL 등은 문서 추출(송장, 영수증, 양식), 다이어그램 이해, 다중 이미지 추론을 잘 처리합니다. 여전히 세밀한 공간 추론과 비라틴 문자 필기체에서는 부족합니다.

전체 비교

각 카테고리별 최고의 오픈소스 모델과 Claude Opus 4.6 비교(Opus = 각 축에서 100%):

코드(SWE-bench): 오픈소스 80.2% vs Opus 80.8% — Opus가 0.6점 차이로 승리. 기본적으로 동등합니다.
지식(MMLU-Pro): 오픈소스 88.9% vs Opus 82.0% — 오픈소스가 6.9점 차이로 승리.
속도(토큰/초): 오픈소스 334 vs Opus 46 — 오픈소스가 7.3배 빠릅니다.
도구 사용(개선): 오픈소스 +20.1점 vs Opus +12.4점 — 오픈소스가 7.7점 차이로 승리.

📖 Read the full source: r/LocalLLaMA

오픈소스 모델이 벤치마크에서 Claude Opus 4.6을 따라잡거나 능가합니다

벤치마크 결과

일반 추론: DeepSeek V3.2

추론: DeepSeek R1

에이전트: Kimi K2.5

코드: MiniMax M2.5

속도 비교

비전

전체 비교

👀 See Also

타알라스의 HC1: 맞춤형 실리콘으로 AI 추론 가속화하기

클로드 섀넌의 1950년 체스 논문, 생성형 AI의 핵심 문제를 예측하다: 추측 대 앎

Claude AI가 개발자가 잠든 사이 매직 링크 버그에 대한 병합 PR을 열다

오픈클로의 역사: 몰트봇에서 오픈 소스 AI 혁명까지