Qwen 3 8B schlägt 4x größere Modelle: 6/13 Tasks gewonnen

Evaluationsergebnisse

Ein verblindetes Peer-Evaluationssystem namens The Multivac testete 10 kleine Sprachmodelle an 13 schwierigen Fragen auf Spitzenniveau. Der gleiche Schwierigkeitsgrad wurde für GPT-5.4 und Claude Opus 4.6 verwendet. Die Modelle wussten nicht, welche Antwort von welchem Modell stammte, und die Ranglisten wurden aus dem Peer-Konsens berechnet.

Wesentliche Erkenntnisse

Qwen 3 8B (8B Parameter) erreichte:

6 erste Plätze bei 13 Bewertungen
Top-3-Platzierungen in 12 von 13 Aufgaben
Durchschnittspunktzahl von 9,40
Schlechteste Platzierung: 5. Platz

Diese Leistung übertraf Modelle mit deutlich höheren Parameterzahlen, darunter:

Gemma 3 27B (27B Parameter): 3 Siege, 11 Top-3-Platzierungen, Durchschnitt 9,33
Kimi K2.5 (32B/1T MoE): 3 Siege, 5 Top-3-Platzierungen, Durchschnitt 8,78
Qwen 3 32B (32B Parameter): 2 Siege, 5 Top-3-Platzierungen, Durchschnitt 8,40

Aufgabenspezifische Leistung

Bei Code-Aufgaben platzierte sich Qwen 3 8B:

1. bei Go-Nebenläufigkeits-Debugging (9,65)
1. bei Analyse verteilter Sperren (9,33)
Gleichauf 1. bei SQL-Optimierung (9,66)

Bei logischen Aufgaben platzierte es sich:

1. bei Simpsons Paradoxon (9,51)
1. bei Investitionsentscheidungstheorie (9,63)
2. bei Bayes'scher Diagnose (9,53)

Bemerkenswerte Beobachtungen

Qwen 3 32B zeigte einen deutlichen Leistungseinbruch bei der Debugging-Aufgabe für verteilte Sperren (EVAL-20260315-043330) mit nur 1,00 von 10 Punkten, während alle anderen Modelle über 5,5 Punkte erzielten. Das 8B-Modell erreichte 9,33 Punkte bei derselben Aufgabe. Die Ursache ist unklar, könnte aber mit OpenRouter-Routing, Quantisierungsartefakten oder einem echten Fehlermodus zusammenhängen.

Kimi K2.5, technisch ein 32B aktives/1T MoE-Modell, gewann 3 Bewertungen, darunter die 502-Debugging-Aufgabe (9,57), Arrows Wahltheorem (9,18) und Überlebendenfehler (9,63).

Llama 3.1 8B belegte in 10 von 13 Bewertungen den letzten oder vorletzten Platz mit einer Durchschnittspunktzahl von 7,51 und zeigte damit eine enorme Kluft im Vergleich zu Qwen 3 8B (9,40) trotz gleicher Parameterzahl.

Methodische Anmerkungen

Die Evaluation verwendete ein verblindetes Peer-System, bei dem 10 Modelle auf dieselbe Frage antworten und dann jedes Modell alle 10 Antworten bewertet (insgesamt 100 Bewertungen pro Evaluation, abzüglich Selbstbewertungen). Der Autor weist auf echte Einschränkungen hin: KI, die KI bewertet, hat ein Zirkularitätsproblem, und die Punktzahlen messen Peer-Konsens statt objektiver Wahrheit. Eine menschliche Baseline-Studie wird entwickelt, um die Korrelation zu messen.

📖 Read the full source: r/LocalLLaMA