Le benchmark montre que le modèle 4B plus petit surpasse les grands LLM pour les applications de discussion téléphone-domicile.

Résultats du benchmark de chat téléphone-à-maison
Un benchmark récent a évalué 8 LLM locaux pour les applications de chat téléphone-à-maison où l'inférence s'exécute sur un ordinateur domestique. Le test comprenait 640 évaluations (8 modèles × 8 jeux de données × 10 échantillons) sur un matériel Mac mini M4 Pro 24Gb.
Formule de fitness et pondération
La formule de fitness composite pondérait trois facteurs : 50 % expérience utilisateur de chat, 30 % vitesse et 20 % qualité des réponses courtes. Cette pondération privilégie l'expérience utilisateur pour les applications mobiles où la latence est primordiale.
Principales conclusions
- Gemma3:4B a gagné avec un score de fitness composite de 88,7 malgré être le plus petit modèle testé
- Il a obtenu le TTFT le plus bas (11,2 s), le débit le plus élevé (89,3 tok/s) et les températures les plus basses (45 °C)
- Les modèles plus grands comme GPT-OSS:20B ont réussi 70 % des tâches mais se sont classés 6e en raison d'un TTFT moyen de 25,4 s
- Les performances thermiques variaient considérablement : Qwen3:14B a atteint un pic de 83 °C, DeepSeek-R1:14B à 81 °C
- Magistral:24B a été exclu du classement final après avoir déclenché des boucles de délai d'attente et atteint 97 °C de température GPU
Pourquoi les modèles plus petits ont mieux performé
Le benchmark a révélé que pour les applications de chat téléphonique, un temps de réponse du premier jeton (TTFT) plus rapide et une charge thermique plus faible comptent plus que la précision brute. Un modèle avec 77,5 % de précision mais nécessitant 25 s d'attente pour le premier jeton perd face à un modèle qui répond à 72,5 % mais réagit en 11 s. L'écart thermique est significatif pour la fiabilité et la longévité du matériel personnel.
Analyse indépendante
Une analyse indépendante utilisant Claude sur le même jeu de données de 640 évaluations a pondéré la fiabilité et le TTFT plus agressivement et a abouti à un ordre légèrement différent du top 4, confirmant que la pondération des KPI est un choix plutôt qu'une vérité absolue.
Considérations sur les cas d'utilisation
L'auteur note que pour différents cas d'utilisation comme le codage ou la rédaction de textes longs, la formule de pondération serait complètement inversée, privilégiant la qualité par rapport à la vitesse et à l'expérience utilisateur de chat.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Amélioration des performances de Gemini 3 Flash grâce à l'incitation compétitive
Les chercheurs ont atteint 95 % des performances de référence de Claude 4.6 Opus avec Gemini 3 Flash, à un coût 200 fois inférieur et une vitesse 4 fois supérieure, en utilisant des techniques de stimulation compétitive exploitant la jalousie humaine comme motivation.

Claude Code v2.1.90 : Nouveaux cours interactifs, améliorations des performances et corrections de bugs
Claude Code v2.1.90 introduit les leçons interactives /powerup, ajoute la variable d'environnement CLAUDE_CODE_PLUGIN_KEEP_MARKETPLACE_ON_FAILURE pour une utilisation hors ligne, et comprend de multiples améliorations de performances ainsi que des corrections de bugs pour les outils, l'interface utilisateur et la sécurité.

Analyse des problèmes de benchmarking TB2 dans la tâche de récupération db-wal-recovery
Une analyse de Reddit révèle des problèmes avec la tâche de récupération db-wal de Terminal Bench 2.0, où les agents peuvent accidentellement détruire des preuves en ouvrant des bases de données SQLite, et montre comment l'injection de prompt affecte les résultats du classement.

Codage Vibe vs Ingénierie Agentique : Les Lignes Floues Deviennent Inconfortables
Simon Willison réfléchit à la convergence du vibe coding et de l'ingénierie agentique dans son propre flux de travail, remarquant qu'il fait désormais confiance à Claude Code pour écrire des points de terminaison d'API JSON de production sans relire chaque ligne — et cela lui semble étrange.