Gemma3:4B übertrifft 24B-Modelle: Benchmark-Ergebnisse 2025

Benchmark-Ergebnisse für Telefon-zu-Heim-Chat

Ein kürzlich durchgeführter Benchmark bewertete 8 lokale LLMs für Telefon-zu-Heim-Chat-Anwendungen, bei denen die Inferenz auf einem Heimcomputer läuft. Der Test umfasste 640 Bewertungen (8 Modelle × 8 Datensätze × 10 Stichproben) auf Mac mini M4 Pro 24Gb Hardware.

Fitnessformel und Gewichtung

Die zusammengesetzte Fitnessformel gewichtete drei Faktoren: 50 % Chat-Benutzererfahrung, 30 % Geschwindigkeit und 20 % Kurzform-Qualität. Diese Gewichtung priorisiert die Benutzererfahrung für mobile Anwendungen, bei denen Latenz am wichtigsten ist.

Wichtige Erkenntnisse

Gemma3:4B gewann mit einer zusammengesetzten Fitnesspunktzahl von 88,7, obwohl es das kleinste getestete Modell war
Es erreichte die niedrigste TTFT (11,2 s), den höchsten Durchsatz (89,3 Tok/s) und die kühlsten Temperaturen (45 °C)
Größere Modelle wie GPT-OSS:20B bestanden 70 % der Aufgaben, rangierten aber aufgrund einer mittleren TTFT von 25,4 s nur auf Platz 6
Die thermische Leistung variierte erheblich: Qwen3:14B erreichte Spitzenwerte von 83 °C, DeepSeek-R1:14B bei 81 °C
Magistral:24B wurde nach Auslösung von Timeout-Schleifen und Erreichen einer GPU-Temperatur von 97 °C von der endgültigen Rangliste ausgeschlossen

Warum kleinere Modelle besser abschnitten

Der Benchmark zeigte, dass für Telefon-Chat-Anwendungen eine schnellere Antwortzeit des ersten Tokens (TTFT) und eine geringere thermische Belastung wichtiger sind als rohe Genauigkeit. Ein Modell mit 77,5 % Genauigkeit, das aber 25 s auf das erste Token warten lässt, verliert gegen eines, das mit 72,5 % antwortet, aber in 11 s reagiert. Die Temperaturlücke ist signifikant für die Zuverlässigkeit und Langlebigkeit persönlicher Hardware.

Unabhängige Analyse

Eine unabhängige Analyse mit Claude auf demselben 640-Bewertungen-Datensatz gewichtete Zuverlässigkeit und TTFT aggressiver und ergab eine leicht andere Top-4-Reihenfolge, was bestätigt, dass die KPI-Gewichtung eine Wahl und keine absolute Wahrheit ist.

Überlegungen zum Anwendungsfall

Der Autor merkt an, dass für andere Anwendungsfälle wie Programmierung oder Langform-Texte die Gewichtungsformel völlig umgedreht werden würde und Qualität über Geschwindigkeit und Chat-Benutzererfahrung priorisieren würde.

📖 Read the full source: r/LocalLLaMA

Benchmark zeigt, dass kleinere 4B-Modelle größere LLMs für Telefon-zu-Haus-Chatanwendungen übertreffen

Benchmark-Ergebnisse für Telefon-zu-Heim-Chat

Fitnessformel und Gewichtung

Wichtige Erkenntnisse

Warum kleinere Modelle besser abschnitten

Unabhängige Analyse

Überlegungen zum Anwendungsfall

👀 Siehe auch

Claude-Projekte: Probleme beim Hochladen und Indizieren von Dateien dokumentiert

AlphaEvolve: Der Gemini-gestützte Agent von DeepMind optimiert Algorithmen in den Bereichen Genomik, Stromnetze und TPC-Schaltkreise

🚀 OpenClaw 2026.2.6 veröffentlicht – Neue Modelle, verbesserte Sicherheit und wichtige Updates!

OpenClaw 2026.3.22-beta.1: Wichtige Workflow-Änderungen für Plugin-Autoren und Browser-Automatisierung