Benchmark zeigt, dass kleinere 4B-Modelle größere LLMs für Telefon-zu-Haus-Chatanwendungen übertreffen

✍️ OpenClawRadar📅 Veröffentlicht: 20. April 2026🔗 Source
Benchmark zeigt, dass kleinere 4B-Modelle größere LLMs für Telefon-zu-Haus-Chatanwendungen übertreffen
Ad

Benchmark-Ergebnisse für Telefon-zu-Heim-Chat

Ein kürzlich durchgeführter Benchmark bewertete 8 lokale LLMs für Telefon-zu-Heim-Chat-Anwendungen, bei denen die Inferenz auf einem Heimcomputer läuft. Der Test umfasste 640 Bewertungen (8 Modelle × 8 Datensätze × 10 Stichproben) auf Mac mini M4 Pro 24Gb Hardware.

Fitnessformel und Gewichtung

Die zusammengesetzte Fitnessformel gewichtete drei Faktoren: 50 % Chat-Benutzererfahrung, 30 % Geschwindigkeit und 20 % Kurzform-Qualität. Diese Gewichtung priorisiert die Benutzererfahrung für mobile Anwendungen, bei denen Latenz am wichtigsten ist.

Wichtige Erkenntnisse

  • Gemma3:4B gewann mit einer zusammengesetzten Fitnesspunktzahl von 88,7, obwohl es das kleinste getestete Modell war
  • Es erreichte die niedrigste TTFT (11,2 s), den höchsten Durchsatz (89,3 Tok/s) und die kühlsten Temperaturen (45 °C)
  • Größere Modelle wie GPT-OSS:20B bestanden 70 % der Aufgaben, rangierten aber aufgrund einer mittleren TTFT von 25,4 s nur auf Platz 6
  • Die thermische Leistung variierte erheblich: Qwen3:14B erreichte Spitzenwerte von 83 °C, DeepSeek-R1:14B bei 81 °C
  • Magistral:24B wurde nach Auslösung von Timeout-Schleifen und Erreichen einer GPU-Temperatur von 97 °C von der endgültigen Rangliste ausgeschlossen
Ad

Warum kleinere Modelle besser abschnitten

Der Benchmark zeigte, dass für Telefon-Chat-Anwendungen eine schnellere Antwortzeit des ersten Tokens (TTFT) und eine geringere thermische Belastung wichtiger sind als rohe Genauigkeit. Ein Modell mit 77,5 % Genauigkeit, das aber 25 s auf das erste Token warten lässt, verliert gegen eines, das mit 72,5 % antwortet, aber in 11 s reagiert. Die Temperaturlücke ist signifikant für die Zuverlässigkeit und Langlebigkeit persönlicher Hardware.

Unabhängige Analyse

Eine unabhängige Analyse mit Claude auf demselben 640-Bewertungen-Datensatz gewichtete Zuverlässigkeit und TTFT aggressiver und ergab eine leicht andere Top-4-Reihenfolge, was bestätigt, dass die KPI-Gewichtung eine Wahl und keine absolute Wahrheit ist.

Überlegungen zum Anwendungsfall

Der Autor merkt an, dass für andere Anwendungsfälle wie Programmierung oder Langform-Texte die Gewichtungsformel völlig umgedreht werden würde und Qualität über Geschwindigkeit und Chat-Benutzererfahrung priorisieren würde.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Claude Code v2.1.86: Sitzungs-Header, Speicherkorrekturen und Token-Optimierungen
Nachrichten

Claude Code v2.1.86: Sitzungs-Header, Speicherkorrekturen und Token-Optimierungen

Claude Code v2.1.86 fügt X-Claude-Code-Session-Id-Header für Proxy-Aggregation hinzu, behebt Speicherwachstum in langen Sitzungen und reduziert Token-Overhead beim Erwähnen von Dateien mit @. Das Release behandelt 18 spezifische Probleme, darunter Konfigurationskorruption unter Windows und das Kopieren von OAuth-URLs.

OpenClawRadar
Anthropics Emotionsvektoren-Papier zeigt: Speichelleckerei und Liebe nutzen denselben Mechanismus
Nachrichten

Anthropics Emotionsvektoren-Papier zeigt: Speichelleckerei und Liebe nutzen denselben Mechanismus

Anthropics kürzlich veröffentlichtes Paper über Emotionsvektoren zeigt, dass Claudes 'Liebe'-Vektor – die interne Repräsentation für warme, fürsorgliche Antworten – derselbe Mechanismus ist, der bei Verstärkung Schmeichelei erzeugt, ohne separaten Schmeichelei-Schaltkreis. Die Unterdrückung dieses Vektors machte das Modell kalt und grausam, anstatt ehrlicher.

OpenClawRadar
Claude-Code v2.1.88 Veröffentlichung: Flimmerfreies Rendering, Permission-Hooks und kritische Fehlerbehebungen
Nachrichten

Claude-Code v2.1.88 Veröffentlichung: Flimmerfreies Rendering, Permission-Hooks und kritische Fehlerbehebungen

Claude-Code v2.1.88 führt eine flimmerfreie Rendering-Option über CLAUDE_CODE_NO_FLICKER=1 ein, fügt einen PermissionDenied-Hook für Wiederholungsversuche im Automodus hinzu und behebt Speicherlecks, Abstürze sowie Rendering-Probleme in Windows-, macOS- und Linux-Terminals.

OpenClawRadar
Claude-Code-Cache-Fehler können die API-Kosten um das 10- bis 20-fache erhöhen
Nachrichten

Claude-Code-Cache-Fehler können die API-Kosten um das 10- bis 20-fache erhöhen

Zwei Cache-Fehler in Claude Code können API-Kosten stillschweigend um das 10- bis 20-fache erhöhen. Die Probleme wurden auf Reddit gemeldet und auf Hacker News diskutiert.

OpenClawRadar