오픈소스 모델이 벤치마크에서 Claude Opus 4.6을 따라잡거나 능가합니다

벤치마크 결과
오픈소스 모델과 Claude Opus 4.6의 상세 비교 결과, 여러 카테고리에서 경쟁력 있거나 우수한 성능을 보여줍니다.
일반 추론: DeepSeek V3.2
DeepSeek V3.2는 독점 모델과 견줄 만하며, 고성능 버전(V3.2-Speciale)은 GPT-5를 능가합니다.
- SWE-bench Verified: Claude Opus 4.6: 80.8%, DeepSeek V3.2: 73.0%
- LiveCodeBench: Claude Opus 4.6: 76, DeepSeek V3.2: 74.1
- MMLU-Pro: DeepSeek V3.2: 85.0%, Claude Opus 4.6: 82.0%
DeepSeek V3.2는 강력한 다국어 지원(CJK, 아랍어, 유럽 언어), 128K 컨텍스트와 희소 주의 메커니즘을 갖추고 있지만, 창의적 글쓰기와 일부 구조화된 출력의 특수한 경우에서는 부족합니다. 추론: 출력 ~60 토큰/초, TTFT 1.18초, 128K 컨텍스트. 일반 사용 사례의 90% 이상에서 프로덕션 준비 완료. GPT-5보다 5배, Opus 4.6보다 20배 저렴합니다.
추론: DeepSeek R1
DeepSeek R1은 여러 벤치마크에서 고가의 추론 모델을 능가합니다.
- Humanity's Last Exam: DeepSeek R1: 50.2%, Claude Opus 4.6: 40.0%
- MMLU-Pro: DeepSeek R1: 88.9%, Claude Opus 4.6: 82.0%
추론: 출력 ~30 토큰/초, TTFT ~2초. 사고 과정 연쇄 처리로 인해 비추론 모델보다 느립니다. 최고의 오픈소스 추론 모델입니다. HLE에서 GPT-5.2 Pro와 동등합니다. o1보다 30배 저렴합니다.
에이전트: Kimi K2.5
1조 개의 파라미터(MoE를 통해 토큰당 32B 활성). 256K 컨텍스트. 수정된 MIT 라이선스 하에 오픈소스입니다.
- 도구 사용 개선: Kimi K2.5: +20.1점, Claude Opus 4.6: +12.4점, GPT-5.2: +11.0점
- SWE-bench Verified: Claude Opus 4.6: 80.8%, Kimi K2.5: 76.8%
- Humanity's Last Exam: Kimi K2.5: 50.2%, Claude Opus 4.6: 40.0%
최대 100개의 하위 에이전트를 병렬로 생성하고, 인간 개입 없이 1,500개 이상의 도구 호출을 처리할 수 있습니다. 추론: 출력 334 토큰/초, TTFT 0.31초. 자율 에이전트 작업 부하에 최적의 모델입니다. 가장 빠른 TTFT, 최고의 도구 사용, 모든 벤치마크에서 경쟁력 있습니다.
코드: MiniMax M2.5
MiniMax M2.5은 최고의 코딩 모델 중 하나가 되었습니다.
- SWE-bench Verified: Claude Opus 4.6: 80.8%, MiniMax M2.5: 80.2%, GLM-5: 77.8%
MiniMax는 3월 18일 M2.7을 출시했습니다 — "자기 진화" 모델로, 백만 토큰당 $0.30/$1.20입니다. 코딩 정확도 96번째 백분위수, 일반 지식에서 완벽한 점수. 이용 가능한 가장 저렴한 최첨단 모델 중 하나입니다. 오픈소스 코딩 모델이 최고의 독점 모델과 효과적으로 맞먹습니다.
속도 비교
프로덕션에서는 품질만큼 지연 시간도 중요합니다.
출력 속도(토큰/초):
- Kimi K2.5 Turbo: 334
- Llama 3.1 8B: ~200
- GLM 4.7 Flash: ~150
- DeepSeek V3.2: ~60
- Claude Opus 4.6: 46
- DeepSeek R1: ~30
첫 토큰까지의 시간(TTFT):
- Llama 3.1 8B: 0.2초
- Kimi K2.5 Turbo: 0.31초
- GLM 4.7 Flash: 0.51초
- DeepSeek V3.2: 1.18초
Kimi K2.5의 334 토큰/초는 Opus의 46 토큰/초보다 7배 빠릅니다.
비전
오픈소스 비전은 문서 처리와 표준 이미지 분석에서 따라잡았습니다. Llama 4 Scout, Qwen VL 등은 문서 추출(송장, 영수증, 양식), 다이어그램 이해, 다중 이미지 추론을 잘 처리합니다. 여전히 세밀한 공간 추론과 비라틴 문자 필기체에서는 부족합니다.
전체 비교
각 카테고리별 최고의 오픈소스 모델과 Claude Opus 4.6 비교(Opus = 각 축에서 100%):
- 코드(SWE-bench): 오픈소스 80.2% vs Opus 80.8% — Opus가 0.6점 차이로 승리. 기본적으로 동등합니다.
- 지식(MMLU-Pro): 오픈소스 88.9% vs Opus 82.0% — 오픈소스가 6.9점 차이로 승리.
- 속도(토큰/초): 오픈소스 334 vs Opus 46 — 오픈소스가 7.3배 빠릅니다.
- 도구 사용(개선): 오픈소스 +20.1점 vs Opus +12.4점 — 오픈소스가 7.7점 차이로 승리.
📖 Read the full source: r/LocalLLaMA
👀 See Also

슬랙 속도 제한 변경으로 OpenClaw 컨텍스트 검색 기능이 중단되었습니다
Slack이 3월 3일에 속도 제한을 변경하여, 비마켓플레이스 앱의 conversations.history 및 conversations.replies를 분당 1회 요청, 최대 15개 메시지로 제한했습니다. 이로 인해 OpenClaw 에이전트가 컨텍스트 창의 85%를 잃게 됩니다.

스탠퍼드 CS 25 트랜스포머 강좌, 실시간 스트리밍으로 공개 강좌 개설
스탠퍼드 대학교의 CS 25 트랜스포머 세미나가 2025년 1월 23일 오후 4시 30분부터 5시 50분(태평양 표준시)에 시작되며, 스킬링 강당에서 대면으로 또는 줌을 통해 참여할 수 있고, 녹화본은 온라인에 게시됩니다.

크롬의 제미니 나노 AI 모델이 4GB 디스크 공간을 차지
Google Chrome이 Gemini Nano 온디바이스 AI 모델을 위해 4GB 크기의 weights.bin 파일을 자동으로 다운로드하여 명확한 사용자 알림 없이 저장 공간을 낭비할 수 있습니다. 설정에서 온디바이스 AI 토글을 비활성화하면 파일이 제거되고 재다운로드가 방지됩니다.

OneUptime이 단일 커밋으로 12,000개의 AI 생성 블로그 게시물을 추가합니다
OneUptime의 블로그 저장소가 단일 커밋으로 ClickHouse, Redis, MongoDB, MySQL 및 기타 기술을 다루는 12,000개의 AI 생성 게시물을 추가했으며, 5,012개의 파일과 100만 줄 이상의 코드를 변경했습니다.