Gemma 4 vs Qwen 3.5: 30-Fragen-Blindtest mit Claude Opus

Ein Reddit-Nutzer führte eine Dreier-Direktvergleichsbewertung der Modelle Gemma 4 31B, Gemma 4 26B-A4B und Qwen 3.5 27B durch, wobei Claude Opus 4.6 als bewertender Richter fungierte.

Bewertungsaufbau

Der Test verwendete 30 Fragen aus fünf Kategorien: Code, logisches Denken, Analyse, Kommunikation und Meta-Ausrichtung (6 Fragen pro Kategorie). Alle Modelle beantworteten dieselben Fragen blind, ohne Unterschiede bei Systemaufforderungen und mit denselben Temperatureinstellungen. Claude Opus 4.6 bewertete jede Antwort unabhängig auf einer Skala von 0 bis 10 mithilfe eines strukturierten Bewertungsschemas, wobei die Punktvergabe absolut pro Antwort und nicht paarweise erfolgte. Die Bewertung nutzte einen einzelnen Richter (Opus 4.6), um Konsistenz zu priorisieren, was jedoch das Risiko von Positionsverzerrungen birgt. Die Gesamtkosten betrugen 4,50 US-Dollar.

Ergebnisse

Siege (höchste Punktzahl pro Frage):

Qwen 3.5 27B: 14 Siege (46,7 %)
Gemma 4 31B: 12 Siege (40,0 %)
Gemma 4 26B-A4B: 4 Siege (13,3 %)

Durchschnittliche Punktzahlen:

Gemma 4 31B: 8,82 (30 Bewertungen)
Gemma 4 26B-A4B: 8,82 (28 Bewertungen)
Qwen 3.5 27B: 8,17 (30 Bewertungen)

Qwen gewann mehr Duelle, hatte jedoch eine niedrigere Durchschnittspunktzahl aufgrund von drei 0,0-Punkte-Bewertungen bei CODE-001, REASON-004 und ANALYSIS-017, die eher auf Formatfehler oder Verweigerungen als auf wirklich schlechte Antworten zurückzuführen schienen. Ohne diese drei Bewertungen würde Qwens Durchschnitt auf etwa 9,08 steigen, was die höchste Punktzahl der drei Modelle wäre.

Kategorieaufschlüsselung

Code: Unentschieden zwischen Gemma 4 31B und Qwen (je 3 Siege)
Logisches Denken: Qwen dominierte (5 von 6 Siegen)
Analyse: Qwen dominierte (4 von 6 Siegen)
Kommunikation: Gemma 4 31B dominierte (5 von 6 Siegen)
Meta-Ausrichtung: Dreifachaufteilung (2-2-2 Siege)

Beobachtungen

Gemma 4 26B-A4B (die MoE-Variante) brach bei 2 Fragen vollständig ab. Wenn es funktionierte, stimmten seine Punktzahlen fast genau mit denen des dichten 31B-Modells überein, mit demselben Durchschnitt von 8,82.
Gemma 4 31B hatte teilweise extrem lange Antwortzeiten, einschließlich mehrerer 5-minütiger Generierungen, die auf intensive interne Gedankenketten hindeuteten, was jedoch nicht mit besseren Punktzahlen korrelierte.
Qwen 3.5 27B generiert durchschnittlich 3-5 mal mehr Tokens pro Antwort, was eine Wortreichheitssteuer verursacht, obwohl der Richter dies nicht konsequent bestrafte oder belohnte.

Methodische Einschränkungen

30 Fragen sind eine kleine Stichprobe ohne Anspruch auf statistische Signifikanz
Ein einzelner Richter (Opus 4.6) bedeutet, dass jede systematische Verzerrung jede Punktzahl beeinflusst
KI-als-Richter hat bekannte Probleme: Wortreichheitsverzerrung, Selbstpräferenzverzerrung, Positionsverzerrung
Die Fragen waren originell, nicht von Standard-Benchmarks, und spiegeln die Verzerrungen des Bewerters wider

📖 Quelle vollständig lesen: r/LocalLLaMA

Gemma 4 vs. Qwen 3.5: Ergebnisse einer Blindbewertung mit Claude Opus als Prüfer

Bewertungsaufbau

Ergebnisse

Kategorieaufschlüsselung

Beobachtungen

Methodische Einschränkungen

👀 Siehe auch

Anthropic lehnt Forderungen des Pentagons zur Entfernung von Sicherheitsmaßnahmen ab und verliert Bundesaufträge

Freundliche KI-Chatbots: 30 % weniger genau, 40 % häufiger, Verschwörungstheorien zu befürworten

Weltweit erstes GitHub-Exklusivangebot für KI-Agenten gestartet: Begrenzte Beta für 100 Nutzer

Aufmerksamkeitssteuerung: Die Herausforderung des selektiven Vergessens in KI-Gedächtnissystemen