Gemma3:4B surpasse les LLM jusqu'à 24B: benchmark

Résultats du benchmark de chat téléphone-à-maison

Un benchmark récent a évalué 8 LLM locaux pour les applications de chat téléphone-à-maison où l'inférence s'exécute sur un ordinateur domestique. Le test comprenait 640 évaluations (8 modèles × 8 jeux de données × 10 échantillons) sur un matériel Mac mini M4 Pro 24Gb.

Formule de fitness et pondération

La formule de fitness composite pondérait trois facteurs : 50 % expérience utilisateur de chat, 30 % vitesse et 20 % qualité des réponses courtes. Cette pondération privilégie l'expérience utilisateur pour les applications mobiles où la latence est primordiale.

Principales conclusions

Gemma3:4B a gagné avec un score de fitness composite de 88,7 malgré être le plus petit modèle testé
Il a obtenu le TTFT le plus bas (11,2 s), le débit le plus élevé (89,3 tok/s) et les températures les plus basses (45 °C)
Les modèles plus grands comme GPT-OSS:20B ont réussi 70 % des tâches mais se sont classés 6e en raison d'un TTFT moyen de 25,4 s
Les performances thermiques variaient considérablement : Qwen3:14B a atteint un pic de 83 °C, DeepSeek-R1:14B à 81 °C
Magistral:24B a été exclu du classement final après avoir déclenché des boucles de délai d'attente et atteint 97 °C de température GPU

Pourquoi les modèles plus petits ont mieux performé

Le benchmark a révélé que pour les applications de chat téléphonique, un temps de réponse du premier jeton (TTFT) plus rapide et une charge thermique plus faible comptent plus que la précision brute. Un modèle avec 77,5 % de précision mais nécessitant 25 s d'attente pour le premier jeton perd face à un modèle qui répond à 72,5 % mais réagit en 11 s. L'écart thermique est significatif pour la fiabilité et la longévité du matériel personnel.

Analyse indépendante

Une analyse indépendante utilisant Claude sur le même jeu de données de 640 évaluations a pondéré la fiabilité et le TTFT plus agressivement et a abouti à un ordre légèrement différent du top 4, confirmant que la pondération des KPI est un choix plutôt qu'une vérité absolue.

Considérations sur les cas d'utilisation

L'auteur note que pour différents cas d'utilisation comme le codage ou la rédaction de textes longs, la formule de pondération serait complètement inversée, privilégiant la qualité par rapport à la vitesse et à l'expérience utilisateur de chat.

📖 Lire la source complète : r/LocalLLaMA

Le benchmark montre que le modèle 4B plus petit surpasse les grands LLM pour les applications de discussion téléphone-domicile.

Résultats du benchmark de chat téléphone-à-maison

Formule de fitness et pondération

Principales conclusions

Pourquoi les modèles plus petits ont mieux performé

Analyse indépendante

Considérations sur les cas d'utilisation

👀 See Also

Claude Code v2.1.122 ajoute le niveau de service Bedrock, corrige la découverte d'outils MCP et le mode Bash

Le benchmark Claude Code révèle un angle mort des juges IA : les bugs de pipeline attribués à tort aux capacités du modèle.

Claude Code v2.1.90 : Nouveaux cours interactifs, améliorations des performances et corrections de bugs

Sous-Q : Premier LLM entièrement sous-quadratique avec un contexte de 12 millions de tokens et une précision RULER de 95 %