Benchmark zeigt, dass kleinere 4B-Modelle größere LLMs für Telefon-zu-Haus-Chatanwendungen übertreffen

Benchmark-Ergebnisse für Telefon-zu-Heim-Chat
Ein kürzlich durchgeführter Benchmark bewertete 8 lokale LLMs für Telefon-zu-Heim-Chat-Anwendungen, bei denen die Inferenz auf einem Heimcomputer läuft. Der Test umfasste 640 Bewertungen (8 Modelle × 8 Datensätze × 10 Stichproben) auf Mac mini M4 Pro 24Gb Hardware.
Fitnessformel und Gewichtung
Die zusammengesetzte Fitnessformel gewichtete drei Faktoren: 50 % Chat-Benutzererfahrung, 30 % Geschwindigkeit und 20 % Kurzform-Qualität. Diese Gewichtung priorisiert die Benutzererfahrung für mobile Anwendungen, bei denen Latenz am wichtigsten ist.
Wichtige Erkenntnisse
- Gemma3:4B gewann mit einer zusammengesetzten Fitnesspunktzahl von 88,7, obwohl es das kleinste getestete Modell war
- Es erreichte die niedrigste TTFT (11,2 s), den höchsten Durchsatz (89,3 Tok/s) und die kühlsten Temperaturen (45 °C)
- Größere Modelle wie GPT-OSS:20B bestanden 70 % der Aufgaben, rangierten aber aufgrund einer mittleren TTFT von 25,4 s nur auf Platz 6
- Die thermische Leistung variierte erheblich: Qwen3:14B erreichte Spitzenwerte von 83 °C, DeepSeek-R1:14B bei 81 °C
- Magistral:24B wurde nach Auslösung von Timeout-Schleifen und Erreichen einer GPU-Temperatur von 97 °C von der endgültigen Rangliste ausgeschlossen
Warum kleinere Modelle besser abschnitten
Der Benchmark zeigte, dass für Telefon-Chat-Anwendungen eine schnellere Antwortzeit des ersten Tokens (TTFT) und eine geringere thermische Belastung wichtiger sind als rohe Genauigkeit. Ein Modell mit 77,5 % Genauigkeit, das aber 25 s auf das erste Token warten lässt, verliert gegen eines, das mit 72,5 % antwortet, aber in 11 s reagiert. Die Temperaturlücke ist signifikant für die Zuverlässigkeit und Langlebigkeit persönlicher Hardware.
Unabhängige Analyse
Eine unabhängige Analyse mit Claude auf demselben 640-Bewertungen-Datensatz gewichtete Zuverlässigkeit und TTFT aggressiver und ergab eine leicht andere Top-4-Reihenfolge, was bestätigt, dass die KPI-Gewichtung eine Wahl und keine absolute Wahrheit ist.
Überlegungen zum Anwendungsfall
Der Autor merkt an, dass für andere Anwendungsfälle wie Programmierung oder Langform-Texte die Gewichtungsformel völlig umgedreht werden würde und Qualität über Geschwindigkeit und Chat-Benutzererfahrung priorisieren würde.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude Code v2.1.86: Sitzungs-Header, Speicherkorrekturen und Token-Optimierungen
Claude Code v2.1.86 fügt X-Claude-Code-Session-Id-Header für Proxy-Aggregation hinzu, behebt Speicherwachstum in langen Sitzungen und reduziert Token-Overhead beim Erwähnen von Dateien mit @. Das Release behandelt 18 spezifische Probleme, darunter Konfigurationskorruption unter Windows und das Kopieren von OAuth-URLs.

Anthropics Emotionsvektoren-Papier zeigt: Speichelleckerei und Liebe nutzen denselben Mechanismus
Anthropics kürzlich veröffentlichtes Paper über Emotionsvektoren zeigt, dass Claudes 'Liebe'-Vektor – die interne Repräsentation für warme, fürsorgliche Antworten – derselbe Mechanismus ist, der bei Verstärkung Schmeichelei erzeugt, ohne separaten Schmeichelei-Schaltkreis. Die Unterdrückung dieses Vektors machte das Modell kalt und grausam, anstatt ehrlicher.

Claude-Code v2.1.88 Veröffentlichung: Flimmerfreies Rendering, Permission-Hooks und kritische Fehlerbehebungen
Claude-Code v2.1.88 führt eine flimmerfreie Rendering-Option über CLAUDE_CODE_NO_FLICKER=1 ein, fügt einen PermissionDenied-Hook für Wiederholungsversuche im Automodus hinzu und behebt Speicherlecks, Abstürze sowie Rendering-Probleme in Windows-, macOS- und Linux-Terminals.

Claude-Code-Cache-Fehler können die API-Kosten um das 10- bis 20-fache erhöhen
Zwei Cache-Fehler in Claude Code können API-Kosten stillschweigend um das 10- bis 20-fache erhöhen. Die Probleme wurden auf Reddit gemeldet und auf Hacker News diskutiert.