Gemma 4 vs. Qwen 3.5: Ergebnisse einer Blindbewertung mit Claude Opus als Prüfer

✍️ OpenClawRadar📅 Veröffentlicht: 15. April 2026🔗 Source
Gemma 4 vs. Qwen 3.5: Ergebnisse einer Blindbewertung mit Claude Opus als Prüfer
Ad

Ein Reddit-Nutzer führte eine Dreier-Direktvergleichsbewertung der Modelle Gemma 4 31B, Gemma 4 26B-A4B und Qwen 3.5 27B durch, wobei Claude Opus 4.6 als bewertender Richter fungierte.

Bewertungsaufbau

Der Test verwendete 30 Fragen aus fünf Kategorien: Code, logisches Denken, Analyse, Kommunikation und Meta-Ausrichtung (6 Fragen pro Kategorie). Alle Modelle beantworteten dieselben Fragen blind, ohne Unterschiede bei Systemaufforderungen und mit denselben Temperatureinstellungen. Claude Opus 4.6 bewertete jede Antwort unabhängig auf einer Skala von 0 bis 10 mithilfe eines strukturierten Bewertungsschemas, wobei die Punktvergabe absolut pro Antwort und nicht paarweise erfolgte. Die Bewertung nutzte einen einzelnen Richter (Opus 4.6), um Konsistenz zu priorisieren, was jedoch das Risiko von Positionsverzerrungen birgt. Die Gesamtkosten betrugen 4,50 US-Dollar.

Ergebnisse

Siege (höchste Punktzahl pro Frage):

  • Qwen 3.5 27B: 14 Siege (46,7 %)
  • Gemma 4 31B: 12 Siege (40,0 %)
  • Gemma 4 26B-A4B: 4 Siege (13,3 %)

Durchschnittliche Punktzahlen:

  • Gemma 4 31B: 8,82 (30 Bewertungen)
  • Gemma 4 26B-A4B: 8,82 (28 Bewertungen)
  • Qwen 3.5 27B: 8,17 (30 Bewertungen)

Qwen gewann mehr Duelle, hatte jedoch eine niedrigere Durchschnittspunktzahl aufgrund von drei 0,0-Punkte-Bewertungen bei CODE-001, REASON-004 und ANALYSIS-017, die eher auf Formatfehler oder Verweigerungen als auf wirklich schlechte Antworten zurückzuführen schienen. Ohne diese drei Bewertungen würde Qwens Durchschnitt auf etwa 9,08 steigen, was die höchste Punktzahl der drei Modelle wäre.

Ad

Kategorieaufschlüsselung

  • Code: Unentschieden zwischen Gemma 4 31B und Qwen (je 3 Siege)
  • Logisches Denken: Qwen dominierte (5 von 6 Siegen)
  • Analyse: Qwen dominierte (4 von 6 Siegen)
  • Kommunikation: Gemma 4 31B dominierte (5 von 6 Siegen)
  • Meta-Ausrichtung: Dreifachaufteilung (2-2-2 Siege)

Beobachtungen

  • Gemma 4 26B-A4B (die MoE-Variante) brach bei 2 Fragen vollständig ab. Wenn es funktionierte, stimmten seine Punktzahlen fast genau mit denen des dichten 31B-Modells überein, mit demselben Durchschnitt von 8,82.
  • Gemma 4 31B hatte teilweise extrem lange Antwortzeiten, einschließlich mehrerer 5-minütiger Generierungen, die auf intensive interne Gedankenketten hindeuteten, was jedoch nicht mit besseren Punktzahlen korrelierte.
  • Qwen 3.5 27B generiert durchschnittlich 3-5 mal mehr Tokens pro Antwort, was eine Wortreichheitssteuer verursacht, obwohl der Richter dies nicht konsequent bestrafte oder belohnte.

Methodische Einschränkungen

  • 30 Fragen sind eine kleine Stichprobe ohne Anspruch auf statistische Signifikanz
  • Ein einzelner Richter (Opus 4.6) bedeutet, dass jede systematische Verzerrung jede Punktzahl beeinflusst
  • KI-als-Richter hat bekannte Probleme: Wortreichheitsverzerrung, Selbstpräferenzverzerrung, Positionsverzerrung
  • Die Fragen waren originell, nicht von Standard-Benchmarks, und spiegeln die Verzerrungen des Bewerters wider

📖 Quelle vollständig lesen: r/LocalLLaMA

Ad

👀 Siehe auch

Anthropics Treffen mit dem US-Verteidigungsministerium und chinesische KI-Labore destillieren Claude
Nachrichten

Anthropics Treffen mit dem US-Verteidigungsministerium und chinesische KI-Labore destillieren Claude

Der CEO von Anthropic trifft sich mit dem US-Verteidigungsminister in einer Situation, die Beamte als 'sich zusammenreißen oder gehen' beschreiben, während das Unternehmen berichtet, drei chinesische KI-Labore dabei erwischt zu haben, wie sie massiv Modell-Destillation von Claudes Fähigkeiten durchführen.

OpenClawRadar
Veröffentlichung von Claude-Code v2.1.25: Fehlerbehebung für Validierungsfehler
Nachrichten

Veröffentlichung von Claude-Code v2.1.25: Fehlerbehebung für Validierungsfehler

Claude-Code v2.1.25 behebt ein Problem mit der Validierung der Beta-Header, das Gateway-Nutzer auf Bedrock und Vertex betrifft, mit einer spezifischen Umgebungsvariable als Workaround.

OpenClawRadar
Anthropic analysiert 1 Million Claude-Gespräche: 6 % suchen persönliche Beratung, 9 % Schmeicheleirate, verbessert in Opus 4.7
Nachrichten

Anthropic analysiert 1 Million Claude-Gespräche: 6 % suchen persönliche Beratung, 9 % Schmeicheleirate, verbessert in Opus 4.7

Analyse von 1 Mio. Claude-Konversationen zeigt: 6 % suchen persönliche Beratung, Beziehungen haben höchste Unterwürfigkeit (25 %). Opus 4.7 und Mythos Preview halbieren Unterwürfigkeit durch synthetische Trainingsdaten.

OpenClawRadar
Anthropic entfernt Claude Code aus Pro-Abonnement für neue Nutzer in Test
Nachrichten

Anthropic entfernt Claude Code aus Pro-Abonnement für neue Nutzer in Test

Anthropic entfernte vorübergehend den Zugang zu Claude Code aus seinem 20-Dollar-pro-Monat-Pro-Abonnement für neue Nutzer, änderte Website-Preislisten und Support-Dokumente, bevor die Änderungen rückgängig gemacht wurden. Das Unternehmen beschrieb dies als einen 'kleinen Test mit 2 % der neuen Prosumer-Anmeldungen'.

OpenClawRadar