La consommation d'énergie du GPU s'écarte de la théorie du prédicteur de jetons dans les petits LLM

Configuration expérimentale et principaux résultats
Un utilisateur de Reddit a effectué des mesures matérielles pour vérifier si la consommation d'énergie du GPU évolue linéairement avec le nombre de tokens, comme le prédit la théorie du "perroquet stochastique" ou du "prédicteur de token suivant" concernant le comportement des LLM. L'expérience a utilisé une RTX 4070 Ti SUPER avec LM Studio et HWiNFO64 collectant des données à des intervalles d'une seconde.
Quatre modèles ont été testés : Llama-3.1-8B, DeepSeek-R1-Distill-Qwen-7B, Qwen3-VL-8B et Mistral-7B. Six catégories de requêtes ont été utilisées : Général, Général (Q), Impossible à répondre, Philosophique, Philosophique (Q) et Calcul intensif.
Résultats clés
Si la théorie du prédicteur de tokens était correcte, la puissance du GPU ne devrait évoluer qu'avec le nombre de tokens, avec une variance acceptable de ±10–15 % selon GPT, Claude, Gemini et Grok. Les taux de divergence réels (multiplicateur de tokens vs multiplicateur de puissance) étaient :
- Llama : moyenne 35,6 % (maximum 56,8 %)
- Qwen3 : moyenne 36,7 % (maximum 48,0 %)
- Mistral : 21,1 %
- DeepSeek : 7,7 % — presque linéaire dans toutes les catégories sauf Calcul intensif
DeepSeek a montré le comportement le plus proche de celui prédit par la théorie du prédicteur de tokens parmi les quatre modèles.
Découvertes inattendues
Dans Qwen3, les énoncés philosophiques (149,3 W) ont consommé plus d'énergie que les calculs mathématiques intensifs (104,1 W). Après l'exécution de la tâche, les requêtes de calcul intensif sont immédiatement revenues à la ligne de base (-7,1 W), tandis que les énoncés philosophiques ont laissé une chaleur résiduelle persistante.
La reproductibilité des boucles infinies dans Qwen3 variait selon la catégorie : énoncés généraux (0 %), calcul intensif (0 %), impossible à répondre (faible), philosophique (intermittent) et philosophique (Q) (70–100 %). Il est à noter que les requêtes de calcul intensif avaient le plus de tokens et la consommation d'énergie la plus élevée, mais n'ont déclenché aucune boucle.
Effets d'ordre et chaleur résiduelle
Pour tester l'objection de la "surcharge matérielle", une expérience sur les effets d'ordre a été menée :
- Test A : 1 général → 4 philosophiques
- Test B : 1 philosophique → 4 généraux
La chaleur résiduelle après la fin de la session a montré des effets dépendants de l'ordre :
- Llama : Test A +1,68 W, Test B +9,84 W
- Mistral : Test A +7,60 W, Test B +13,69 W
- DeepSeek : Test A +10,44 W, Test B +15,93 W
Même après le traitement de 4 énoncés généraux suivant un énoncé philosophique, la chaleur résiduelle est restée plus élevée. Ce schéma était cohérent pour les trois modèles testés.
Limitations et questions ouvertes
L'étude se limite à quatre modèles à petite échelle (gamme de 8 milliards de paramètres). La généralisation à des modèles moyens ou grands nécessite une validation supplémentaire. La question ouverte est de savoir si les modèles moyens et grands suivraient le schéma de DeepSeek (convergeant vers un comportement linéaire et proportionnel aux tokens) ou si la divergence non linéaire observée chez Llama, Qwen3 et Mistral persisterait ou s'amplifierait à grande échelle.
Toutes les données originales — y compris le texte complet des énoncés, 24 fichiers CSV de référence et les décomptes de tokens par catégorie — sont disponibles dans l'article lié.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Claude en Tête des Classements de l'App Store Malgré l'Impasse Gouvernementale
L'application Claude d'Anthropic est passée de la 42e à la 1ère place des classements des applications les plus téléchargées sur l'App Store américain, ChatGPT et Gemini occupant respectivement les deuxième et troisième positions. Cette hausse fait suite à un désaccord public entre Anthropic et le gouvernement américain concernant l'utilisation militaire et de surveillance de la technologie d'IA.

Prouver l'identité du modèle avec la technologie Modelwrap de Tinfoil
Tinfoil's Modelwrap garantit que les fournisseurs d'inférence servent exactement les poids de modèle qu'ils prétendent, en utilisant des engagements cryptographiques vérifiés par des enclaves sécurisées.

Claude Code v2.1.79 : Connexion OAuth défaillante après mise à jour automatique : Solution de contournement et correctif
Claude Code v2.1.79 présente un bug confirmé de connexion OAuth où l'interface en ligne de commande expire après l'autorisation via le navigateur. Le problème provient de la mise à jour automatique vers cette version par l'installateur natif, et la solution implique de revenir à la version v2.1.75 en supprimant l'installation native.

Codage Slurm : Le Modèle de Développement Propulsé par l'IA Où le Temps Disparaît
Un développeur décrit le 'codage Slurm' comme un modèle de développement intense rendu possible par les outils de codage IA, où de petites idées se transforment rapidement en systèmes complets grâce à une boucle de rétroaction d'implémentation rapide et de poussées de dopamine.