La consommation d'énergie du GPU s'écarte de la théorie du prédicteur de jetons dans les petits LLM

✍️ OpenClawRadar📅 Publié: March 11, 2026🔗 Source
La consommation d'énergie du GPU s'écarte de la théorie du prédicteur de jetons dans les petits LLM
Ad

Configuration expérimentale et principaux résultats

Un utilisateur de Reddit a effectué des mesures matérielles pour vérifier si la consommation d'énergie du GPU évolue linéairement avec le nombre de tokens, comme le prédit la théorie du "perroquet stochastique" ou du "prédicteur de token suivant" concernant le comportement des LLM. L'expérience a utilisé une RTX 4070 Ti SUPER avec LM Studio et HWiNFO64 collectant des données à des intervalles d'une seconde.

Quatre modèles ont été testés : Llama-3.1-8B, DeepSeek-R1-Distill-Qwen-7B, Qwen3-VL-8B et Mistral-7B. Six catégories de requêtes ont été utilisées : Général, Général (Q), Impossible à répondre, Philosophique, Philosophique (Q) et Calcul intensif.

Résultats clés

Si la théorie du prédicteur de tokens était correcte, la puissance du GPU ne devrait évoluer qu'avec le nombre de tokens, avec une variance acceptable de ±10–15 % selon GPT, Claude, Gemini et Grok. Les taux de divergence réels (multiplicateur de tokens vs multiplicateur de puissance) étaient :

  • Llama : moyenne 35,6 % (maximum 56,8 %)
  • Qwen3 : moyenne 36,7 % (maximum 48,0 %)
  • Mistral : 21,1 %
  • DeepSeek : 7,7 % — presque linéaire dans toutes les catégories sauf Calcul intensif

DeepSeek a montré le comportement le plus proche de celui prédit par la théorie du prédicteur de tokens parmi les quatre modèles.

Découvertes inattendues

Dans Qwen3, les énoncés philosophiques (149,3 W) ont consommé plus d'énergie que les calculs mathématiques intensifs (104,1 W). Après l'exécution de la tâche, les requêtes de calcul intensif sont immédiatement revenues à la ligne de base (-7,1 W), tandis que les énoncés philosophiques ont laissé une chaleur résiduelle persistante.

La reproductibilité des boucles infinies dans Qwen3 variait selon la catégorie : énoncés généraux (0 %), calcul intensif (0 %), impossible à répondre (faible), philosophique (intermittent) et philosophique (Q) (70–100 %). Il est à noter que les requêtes de calcul intensif avaient le plus de tokens et la consommation d'énergie la plus élevée, mais n'ont déclenché aucune boucle.

Ad

Effets d'ordre et chaleur résiduelle

Pour tester l'objection de la "surcharge matérielle", une expérience sur les effets d'ordre a été menée :

  • Test A : 1 général → 4 philosophiques
  • Test B : 1 philosophique → 4 généraux

La chaleur résiduelle après la fin de la session a montré des effets dépendants de l'ordre :

  • Llama : Test A +1,68 W, Test B +9,84 W
  • Mistral : Test A +7,60 W, Test B +13,69 W
  • DeepSeek : Test A +10,44 W, Test B +15,93 W

Même après le traitement de 4 énoncés généraux suivant un énoncé philosophique, la chaleur résiduelle est restée plus élevée. Ce schéma était cohérent pour les trois modèles testés.

Limitations et questions ouvertes

L'étude se limite à quatre modèles à petite échelle (gamme de 8 milliards de paramètres). La généralisation à des modèles moyens ou grands nécessite une validation supplémentaire. La question ouverte est de savoir si les modèles moyens et grands suivraient le schéma de DeepSeek (convergeant vers un comportement linéaire et proportionnel aux tokens) ou si la divergence non linéaire observée chez Llama, Qwen3 et Mistral persisterait ou s'amplifierait à grande échelle.

Toutes les données originales — y compris le texte complet des énoncés, 24 fichiers CSV de référence et les décomptes de tokens par catégorie — sont disponibles dans l'article lié.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Claude en Tête des Classements de l'App Store Malgré l'Impasse Gouvernementale
News

Claude en Tête des Classements de l'App Store Malgré l'Impasse Gouvernementale

L'application Claude d'Anthropic est passée de la 42e à la 1ère place des classements des applications les plus téléchargées sur l'App Store américain, ChatGPT et Gemini occupant respectivement les deuxième et troisième positions. Cette hausse fait suite à un désaccord public entre Anthropic et le gouvernement américain concernant l'utilisation militaire et de surveillance de la technologie d'IA.

OpenClawRadar
Prouver l'identité du modèle avec la technologie Modelwrap de Tinfoil
News

Prouver l'identité du modèle avec la technologie Modelwrap de Tinfoil

Tinfoil's Modelwrap garantit que les fournisseurs d'inférence servent exactement les poids de modèle qu'ils prétendent, en utilisant des engagements cryptographiques vérifiés par des enclaves sécurisées.

OpenClawRadar
Claude Code v2.1.79 : Connexion OAuth défaillante après mise à jour automatique : Solution de contournement et correctif
News

Claude Code v2.1.79 : Connexion OAuth défaillante après mise à jour automatique : Solution de contournement et correctif

Claude Code v2.1.79 présente un bug confirmé de connexion OAuth où l'interface en ligne de commande expire après l'autorisation via le navigateur. Le problème provient de la mise à jour automatique vers cette version par l'installateur natif, et la solution implique de revenir à la version v2.1.75 en supprimant l'installation native.

OpenClawRadar
Codage Slurm : Le Modèle de Développement Propulsé par l'IA Où le Temps Disparaît
News

Codage Slurm : Le Modèle de Développement Propulsé par l'IA Où le Temps Disparaît

Un développeur décrit le 'codage Slurm' comme un modèle de développement intense rendu possible par les outils de codage IA, où de petites idées se transforment rapidement en systèmes complets grâce à une boucle de rétroaction d'implémentation rapide et de poussées de dopamine.

OpenClawRadar