Qwen 3 8B übertrifft größere Modelle in blinden Peer-Evaluierungen bei schwierigen Aufgaben.

Evaluationsergebnisse
Ein verblindetes Peer-Evaluationssystem namens The Multivac testete 10 kleine Sprachmodelle an 13 schwierigen Fragen auf Spitzenniveau. Der gleiche Schwierigkeitsgrad wurde für GPT-5.4 und Claude Opus 4.6 verwendet. Die Modelle wussten nicht, welche Antwort von welchem Modell stammte, und die Ranglisten wurden aus dem Peer-Konsens berechnet.
Wesentliche Erkenntnisse
Qwen 3 8B (8B Parameter) erreichte:
- 6 erste Plätze bei 13 Bewertungen
- Top-3-Platzierungen in 12 von 13 Aufgaben
- Durchschnittspunktzahl von 9,40
- Schlechteste Platzierung: 5. Platz
Diese Leistung übertraf Modelle mit deutlich höheren Parameterzahlen, darunter:
- Gemma 3 27B (27B Parameter): 3 Siege, 11 Top-3-Platzierungen, Durchschnitt 9,33
- Kimi K2.5 (32B/1T MoE): 3 Siege, 5 Top-3-Platzierungen, Durchschnitt 8,78
- Qwen 3 32B (32B Parameter): 2 Siege, 5 Top-3-Platzierungen, Durchschnitt 8,40
Aufgabenspezifische Leistung
Bei Code-Aufgaben platzierte sich Qwen 3 8B:
- 1. bei Go-Nebenläufigkeits-Debugging (9,65)
- 1. bei Analyse verteilter Sperren (9,33)
- Gleichauf 1. bei SQL-Optimierung (9,66)
Bei logischen Aufgaben platzierte es sich:
- 1. bei Simpsons Paradoxon (9,51)
- 1. bei Investitionsentscheidungstheorie (9,63)
- 2. bei Bayes'scher Diagnose (9,53)
Bemerkenswerte Beobachtungen
Qwen 3 32B zeigte einen deutlichen Leistungseinbruch bei der Debugging-Aufgabe für verteilte Sperren (EVAL-20260315-043330) mit nur 1,00 von 10 Punkten, während alle anderen Modelle über 5,5 Punkte erzielten. Das 8B-Modell erreichte 9,33 Punkte bei derselben Aufgabe. Die Ursache ist unklar, könnte aber mit OpenRouter-Routing, Quantisierungsartefakten oder einem echten Fehlermodus zusammenhängen.
Kimi K2.5, technisch ein 32B aktives/1T MoE-Modell, gewann 3 Bewertungen, darunter die 502-Debugging-Aufgabe (9,57), Arrows Wahltheorem (9,18) und Überlebendenfehler (9,63).
Llama 3.1 8B belegte in 10 von 13 Bewertungen den letzten oder vorletzten Platz mit einer Durchschnittspunktzahl von 7,51 und zeigte damit eine enorme Kluft im Vergleich zu Qwen 3 8B (9,40) trotz gleicher Parameterzahl.
Methodische Anmerkungen
Die Evaluation verwendete ein verblindetes Peer-System, bei dem 10 Modelle auf dieselbe Frage antworten und dann jedes Modell alle 10 Antworten bewertet (insgesamt 100 Bewertungen pro Evaluation, abzüglich Selbstbewertungen). Der Autor weist auf echte Einschränkungen hin: KI, die KI bewertet, hat ein Zirkularitätsproblem, und die Punktzahlen messen Peer-Konsens statt objektiver Wahrheit. Eine menschliche Baseline-Studie wird entwickelt, um die Korrelation zu messen.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude Code System Prompts v2.1.53-2.1.55: Speicherauswahl hinzugefügt, Befehlsausführung entfernt
Claude Code Systemprompt-Versionen 2.1.53 bis 2.1.55 fügen Speicherauswahlanweisungen hinzu (156 Token), entfernen den Befehlausführungsspezialisten (109 Token) und strukturieren Prompts in etwa 70 atomare Dateien um. Hintergrundagenten benachrichtigen jetzt automatisch bei Abschluss, anstatt Ausgabedateipfade bereitzustellen.

Claude AI im macOS Tahoe 26.5 Update Release Notes genannt
Die Versionshinweise zu macOS Tahoe 26.5 von Apple nennen Claude AI neben den Entwicklungsteams – der erste bekannte Fall, dass eine KI im Apple-Änderungsprotokoll offiziell erwähnt wird.

Erfüllt OpenClaw die Erwartungen?
OpenClaw, ein heiß erwarteter KI-Coding-Agent, sorgt für Aufsehen unter den Nutzern. Während einige seine Fähigkeiten loben, äußern andere Enttäuschung. Hier ein genauerer Blick auf das Feedback der Community.

Claude Opus 4.6 und Sonnet 4.6 bieten jetzt einen 1-Millionen-Token-Kontext zum Standardpreis an.
Claude Opus 4.6 und Sonnet 4.6 bieten jetzt ein vollständiges 1-Millionen-Kontextfenster zum Standardpreis ohne Aufpreis für lange Kontexte, plus erweiterte Medienlimits von bis zu 600 Bildern oder PDF-Seiten pro Anfrage.