Open-Source-Modelle vs Claude Opus 4.6: 4 von 5 Benchmarks gewonnen

Benchmark-Ergebnisse

Ein detaillierter Vergleich von Open-Source-Modellen mit Claude Opus 4.6 zeigt wettbewerbsfähige oder überlegene Leistung in mehreren Kategorien.

Allgemeines logisches Denken: DeepSeek V3.2

DeepSeek V3.2 kann mit proprietären Modellen mithalten, wobei seine Hochleistungsvariante (V3.2-Speciale) GPT-5 übertrifft.

SWE-bench Verified: Claude Opus 4.6: 80,8 %, DeepSeek V3.2: 73,0 %
LiveCodeBench: Claude Opus 4.6: 76, DeepSeek V3.2: 74,1
MMLU-Pro: DeepSeek V3.2: 85,0 %, Claude Opus 4.6: 82,0 %

DeepSeek V3.2 bietet starke mehrsprachige Unterstützung (CJK, Arabisch, europäische Sprachen), 128K Kontext mit Sparse Attention, ist aber bei kreativem Schreiben und einigen strukturierten Ausgabesonderfällen schwächer. Inferenz: ~60 Tok/s Ausgabe, 1,18s TTFT, 128K Kontext. Produktionsreif für über 90 % der allgemeinen Anwendungsfälle. 5x günstiger als GPT-5, 20x günstiger als Opus 4.6.

Logisches Denken: DeepSeek R1

DeepSeek R1 schlägt teure Denkmodelle in mehreren Benchmarks.

Humanity's Last Exam: DeepSeek R1: 50,2 %, Claude Opus 4.6: 40,0 %
MMLU-Pro: DeepSeek R1: 88,9 %, Claude Opus 4.6: 82,0 %

Inferenz: ~30 Tok/s Ausgabe, ~2s TTFT. Langsamer als Nicht-Denkmodelle aufgrund von Chain-of-Thought-Verarbeitung. Bestes Open-Source-Denkmodell. Entspricht GPT-5.2 Pro bei HLE. 30x günstiger als o1.

Agentenfähig: Kimi K2.5

1 Billion Parameter (32B aktiv pro Token via MoE). 256K Kontext. Open-Source unter modifizierter MIT-Lizenz.

Werkzeugnutzungsverbesserung: Kimi K2.5: +20,1 Punkte, Claude Opus 4.6: +12,4 Punkte, GPT-5.2: +11,0 Punkte
SWE-bench Verified: Claude Opus 4.6: 80,8 %, Kimi K2.5: 76,8 %
Humanity's Last Exam: Kimi K2.5: 50,2 %, Claude Opus 4.6: 40,0 %

Kann autonom bis zu 100 Sub-Agenten parallel erzeugen und über 1.500 Werkzeugaufrufe ohne menschliches Eingreifen verarbeiten. Inferenz: 334 Tok/s Ausgabe, 0,31s TTFT. Bestes Modell für autonome Agenten-Workloads. Schnellster TTFT, beste Werkzeugnutzung, wettbewerbsfähig in jedem Benchmark.

Code: MiniMax M2.5

MiniMax M2.5 wurde zu einem der besten Codemodelle.

SWE-bench Verified: Claude Opus 4.6: 80,8 %, MiniMax M2.5: 80,2 %, GLM-5: 77,8 %

MiniMax veröffentlichte M2.7 am 18. März – ein „sich selbst entwickelndes“ Modell zu $0,30/$1,20 pro M Tokens. 96. Perzentil bei Codierungsgenauigkeit, perfekte Punktzahl bei Allgemeinwissen. Eines der günstigsten verfügbaren Frontier-Modelle. Open-Source-Codemodelle entsprechen effektiv dem besten proprietären Modell.

Geschwindigkeitsvergleich

Für die Produktion ist Latenz genauso wichtig wie Qualität.

Ausgabegeschwindigkeit (Tokens/Sekunde):

Kimi K2.5 Turbo: 334
Llama 3.1 8B: ~200
GLM 4.7 Flash: ~150
DeepSeek V3.2: ~60
Claude Opus 4.6: 46
DeepSeek R1: ~30

Zeit bis zum ersten Token (TTFT):

Llama 3.1 8B: 0,2s
Kimi K2.5 Turbo: 0,31s
GLM 4.7 Flash: 0,51s
DeepSeek V3.2: 1,18s

Kimi K2.5 mit 334 Tok/s ist 7x schneller als Opus mit 46 Tok/s.

Vision

Open-Source-Vision hat für Dokumentenverarbeitung und Standard-Bildanalyse aufgeholt. Llama 4 Scout, Qwen VL und andere handhaben Dokumentenextraktion (Rechnungen, Quittungen, Formulare), Diagrammverständnis und Multi-Bild-Schlussfolgerungen gut. Liegt bei feinräumigem räumlichem Denken und nicht-lateinischer Handschrift noch zurück.

Gesamtvergleich

Bestes Open-Source-Modell in jeder Kategorie im Vergleich zu Claude Opus 4.6 (Opus = 100 % auf jeder Achse):

Code (SWE-bench): Open-Source 80,2 % vs Opus 80,8 % — Opus gewinnt um 0,6 Punkte. Im Wesentlichen gleichauf.
Wissen (MMLU-Pro): Open-Source 88,9 % vs Opus 82,0 % — Open-Source gewinnt um 6,9 Punkte.
Geschwindigkeit (Tok/s): Open-Source 334 vs Opus 46 — Open-Source ist 7,3x schneller.
Werkzeugnutzung (Verbesserung): Open-Source +20,1 Punkte vs Opus +12,4 Punkte — Open-Source gewinnt um 7,7 Punkte.

📖 Read the full source: r/LocalLLaMA