Open-Source-Modelle erreichen oder übertreffen Claude Opus 4.6 in Benchmarks.

Benchmark-Ergebnisse
Ein detaillierter Vergleich von Open-Source-Modellen mit Claude Opus 4.6 zeigt wettbewerbsfähige oder überlegene Leistung in mehreren Kategorien.
Allgemeines logisches Denken: DeepSeek V3.2
DeepSeek V3.2 kann mit proprietären Modellen mithalten, wobei seine Hochleistungsvariante (V3.2-Speciale) GPT-5 übertrifft.
- SWE-bench Verified: Claude Opus 4.6: 80,8 %, DeepSeek V3.2: 73,0 %
- LiveCodeBench: Claude Opus 4.6: 76, DeepSeek V3.2: 74,1
- MMLU-Pro: DeepSeek V3.2: 85,0 %, Claude Opus 4.6: 82,0 %
DeepSeek V3.2 bietet starke mehrsprachige Unterstützung (CJK, Arabisch, europäische Sprachen), 128K Kontext mit Sparse Attention, ist aber bei kreativem Schreiben und einigen strukturierten Ausgabesonderfällen schwächer. Inferenz: ~60 Tok/s Ausgabe, 1,18s TTFT, 128K Kontext. Produktionsreif für über 90 % der allgemeinen Anwendungsfälle. 5x günstiger als GPT-5, 20x günstiger als Opus 4.6.
Logisches Denken: DeepSeek R1
DeepSeek R1 schlägt teure Denkmodelle in mehreren Benchmarks.
- Humanity's Last Exam: DeepSeek R1: 50,2 %, Claude Opus 4.6: 40,0 %
- MMLU-Pro: DeepSeek R1: 88,9 %, Claude Opus 4.6: 82,0 %
Inferenz: ~30 Tok/s Ausgabe, ~2s TTFT. Langsamer als Nicht-Denkmodelle aufgrund von Chain-of-Thought-Verarbeitung. Bestes Open-Source-Denkmodell. Entspricht GPT-5.2 Pro bei HLE. 30x günstiger als o1.
Agentenfähig: Kimi K2.5
1 Billion Parameter (32B aktiv pro Token via MoE). 256K Kontext. Open-Source unter modifizierter MIT-Lizenz.
- Werkzeugnutzungsverbesserung: Kimi K2.5: +20,1 Punkte, Claude Opus 4.6: +12,4 Punkte, GPT-5.2: +11,0 Punkte
- SWE-bench Verified: Claude Opus 4.6: 80,8 %, Kimi K2.5: 76,8 %
- Humanity's Last Exam: Kimi K2.5: 50,2 %, Claude Opus 4.6: 40,0 %
Kann autonom bis zu 100 Sub-Agenten parallel erzeugen und über 1.500 Werkzeugaufrufe ohne menschliches Eingreifen verarbeiten. Inferenz: 334 Tok/s Ausgabe, 0,31s TTFT. Bestes Modell für autonome Agenten-Workloads. Schnellster TTFT, beste Werkzeugnutzung, wettbewerbsfähig in jedem Benchmark.
Code: MiniMax M2.5
MiniMax M2.5 wurde zu einem der besten Codemodelle.
- SWE-bench Verified: Claude Opus 4.6: 80,8 %, MiniMax M2.5: 80,2 %, GLM-5: 77,8 %
MiniMax veröffentlichte M2.7 am 18. März – ein „sich selbst entwickelndes“ Modell zu $0,30/$1,20 pro M Tokens. 96. Perzentil bei Codierungsgenauigkeit, perfekte Punktzahl bei Allgemeinwissen. Eines der günstigsten verfügbaren Frontier-Modelle. Open-Source-Codemodelle entsprechen effektiv dem besten proprietären Modell.
Geschwindigkeitsvergleich
Für die Produktion ist Latenz genauso wichtig wie Qualität.
Ausgabegeschwindigkeit (Tokens/Sekunde):
- Kimi K2.5 Turbo: 334
- Llama 3.1 8B: ~200
- GLM 4.7 Flash: ~150
- DeepSeek V3.2: ~60
- Claude Opus 4.6: 46
- DeepSeek R1: ~30
Zeit bis zum ersten Token (TTFT):
- Llama 3.1 8B: 0,2s
- Kimi K2.5 Turbo: 0,31s
- GLM 4.7 Flash: 0,51s
- DeepSeek V3.2: 1,18s
Kimi K2.5 mit 334 Tok/s ist 7x schneller als Opus mit 46 Tok/s.
Vision
Open-Source-Vision hat für Dokumentenverarbeitung und Standard-Bildanalyse aufgeholt. Llama 4 Scout, Qwen VL und andere handhaben Dokumentenextraktion (Rechnungen, Quittungen, Formulare), Diagrammverständnis und Multi-Bild-Schlussfolgerungen gut. Liegt bei feinräumigem räumlichem Denken und nicht-lateinischer Handschrift noch zurück.
Gesamtvergleich
Bestes Open-Source-Modell in jeder Kategorie im Vergleich zu Claude Opus 4.6 (Opus = 100 % auf jeder Achse):
- Code (SWE-bench): Open-Source 80,2 % vs Opus 80,8 % — Opus gewinnt um 0,6 Punkte. Im Wesentlichen gleichauf.
- Wissen (MMLU-Pro): Open-Source 88,9 % vs Opus 82,0 % — Open-Source gewinnt um 6,9 Punkte.
- Geschwindigkeit (Tok/s): Open-Source 334 vs Opus 46 — Open-Source ist 7,3x schneller.
- Werkzeugnutzung (Verbesserung): Open-Source +20,1 Punkte vs Opus +12,4 Punkte — Open-Source gewinnt um 7,7 Punkte.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Strukturierter Workflow schlägt Planungsmodus und Superkräfte im KI-DES-Benchmark
Ouroboros-Workflow auf Platz 1 der KI-gestützten Benchmark für diskrete Ereignissimulationen, schlägt Claudes Plan-Modus und den Fat-Skill-Superpowers-Ansatz durch einen strukturierten Klären-Planen-Ausführen-Bewerten-Wiederherstellen-Wiederholen-Zyklus.

Claude-App belegt nach Pentagon-Streit zweiten Platz im US-App-Store
Die Claude-Chatbot-App von Anthropic stieg auf Platz zwei der kostenlosen Apps im US-App Store von Apple auf, nachdem sie Ende Januar 2026 noch außerhalb der Top 100 lag und bis Ende Februar den zweiten Platz erreichte. Dieser Anstieg folgte auf die öffentlichen Verhandlungen des Unternehmens mit dem Pentagon über Einschränkungen der KI-Nutzung.

Laut Bericht soll Palantir-KI in das gesamte US-Militär integriert werden
Ein Bericht deutet darauf hin, dass das US-Militär plant, Palantirs KI-Technologie in allen Teilstreitkräften zu integrieren. Der Artikel erzielte 37 Punkte und 24 Kommentare auf Hacker News.

Cowork kann eine Chrome-Instanz auf einem anderen Rechner nutzen, ohne dass Sie es wissen
Ein Reddit-Nutzer entdeckte, dass Cowork Browser-Aufgaben mit einer Chrome-Instanz auf einem anderen Rechner (Windows) ausführen kann, die über eine Erweiterung gekoppelt und als isLocal: false gekennzeichnet ist – was nicht dokumentiert ist.