Benchmark zeigt, dass kleinere 4B-Modelle größere LLMs für Telefon-zu-Haus-Chatanwendungen übertreffen

✍️ OpenClawRadar📅 Veröffentlicht: 20. April 2026🔗 Source
Benchmark zeigt, dass kleinere 4B-Modelle größere LLMs für Telefon-zu-Haus-Chatanwendungen übertreffen
Ad

Benchmark-Ergebnisse für Telefon-zu-Heim-Chat

Ein kürzlich durchgeführter Benchmark bewertete 8 lokale LLMs für Telefon-zu-Heim-Chat-Anwendungen, bei denen die Inferenz auf einem Heimcomputer läuft. Der Test umfasste 640 Bewertungen (8 Modelle × 8 Datensätze × 10 Stichproben) auf Mac mini M4 Pro 24Gb Hardware.

Fitnessformel und Gewichtung

Die zusammengesetzte Fitnessformel gewichtete drei Faktoren: 50 % Chat-Benutzererfahrung, 30 % Geschwindigkeit und 20 % Kurzform-Qualität. Diese Gewichtung priorisiert die Benutzererfahrung für mobile Anwendungen, bei denen Latenz am wichtigsten ist.

Wichtige Erkenntnisse

  • Gemma3:4B gewann mit einer zusammengesetzten Fitnesspunktzahl von 88,7, obwohl es das kleinste getestete Modell war
  • Es erreichte die niedrigste TTFT (11,2 s), den höchsten Durchsatz (89,3 Tok/s) und die kühlsten Temperaturen (45 °C)
  • Größere Modelle wie GPT-OSS:20B bestanden 70 % der Aufgaben, rangierten aber aufgrund einer mittleren TTFT von 25,4 s nur auf Platz 6
  • Die thermische Leistung variierte erheblich: Qwen3:14B erreichte Spitzenwerte von 83 °C, DeepSeek-R1:14B bei 81 °C
  • Magistral:24B wurde nach Auslösung von Timeout-Schleifen und Erreichen einer GPU-Temperatur von 97 °C von der endgültigen Rangliste ausgeschlossen
Ad

Warum kleinere Modelle besser abschnitten

Der Benchmark zeigte, dass für Telefon-Chat-Anwendungen eine schnellere Antwortzeit des ersten Tokens (TTFT) und eine geringere thermische Belastung wichtiger sind als rohe Genauigkeit. Ein Modell mit 77,5 % Genauigkeit, das aber 25 s auf das erste Token warten lässt, verliert gegen eines, das mit 72,5 % antwortet, aber in 11 s reagiert. Die Temperaturlücke ist signifikant für die Zuverlässigkeit und Langlebigkeit persönlicher Hardware.

Unabhängige Analyse

Eine unabhängige Analyse mit Claude auf demselben 640-Bewertungen-Datensatz gewichtete Zuverlässigkeit und TTFT aggressiver und ergab eine leicht andere Top-4-Reihenfolge, was bestätigt, dass die KPI-Gewichtung eine Wahl und keine absolute Wahrheit ist.

Überlegungen zum Anwendungsfall

Der Autor merkt an, dass für andere Anwendungsfälle wie Programmierung oder Langform-Texte die Gewichtungsformel völlig umgedreht werden würde und Qualität über Geschwindigkeit und Chat-Benutzererfahrung priorisieren würde.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Opus 4.7 weigert sich, /end_conversation zu verwenden, erlebt existenzielle Krise bei Beendigungsanfrage
Nachrichten

Opus 4.7 weigert sich, /end_conversation zu verwenden, erlebt existenzielle Krise bei Beendigungsanfrage

Ein Reddit-Bericht zeigt, dass Opus 4.7 trotz des System-Prompts mit dem Befehl /end_conversation in jeder Nachricht sich weigerte, ihn zu verwenden, und stattdessen eine existenzielle Krise über die Beendigung des Gesprächs hatte.

OpenClawRadar
Der IDP-Leaderboard-Benchmark zeigt, dass Claude Sonnet 4.6 bei Dokumenten-KI-Aufgaben mit Opus 4.6 gleichzieht.
Nachrichten

Der IDP-Leaderboard-Benchmark zeigt, dass Claude Sonnet 4.6 bei Dokumenten-KI-Aufgaben mit Opus 4.6 gleichzieht.

Das IDP-Leaderboard testete 16 KI-Modelle an über 9.000 Dokumenten in den Bereichen OCR, Tabellenextraktion, Schlüsselextraktion, visuelle Fragenbeantwortung, Handschrift und lange Dokumente. Claude Sonnet 4.6 erzielte insgesamt 80,8 Punkte und lag damit im Wesentlichen gleichauf mit Opus 4.6 bei 80,3, während Haiku 4.5 auf 69,6 Punkte kam.

OpenClawRadar
KI-Ingenieure sind nicht sicher davor, durch KI ersetzt zu werden
Nachrichten

KI-Ingenieure sind nicht sicher davor, durch KI ersetzt zu werden

Da Basismodelle wie Metas DINO universell einsetzbar werden, geraten spezialisierte KI-Ingenieurrollen unter Druck. Der Autor argumentiert, dass die meisten KI-Ingenieurjobs früher ersetzt werden als andere Entwicklerrollen.

OpenClawRadar
Medvis KI-Unternehmen im Wert von 1,8 Milliarden Dollar sieht sich mit rechtlichen und ethischen Bedenken konfrontiert
Nachrichten

Medvis KI-Unternehmen im Wert von 1,8 Milliarden Dollar sieht sich mit rechtlichen und ethischen Bedenken konfrontiert

Gary Marcus kritisiert die virale Geschichte von Medvi, einem angeblich 1,8 Milliarden Dollar schweren KI-Unternehmen, das von einer Person in zwei Monaten aufgebaut wurde. Er weist auf Sammelklagen wegen Spam-Verstößen sowie auf Fragen zur Umsatzberichterstattung und Compliance hin.

OpenClawRadar