GPU Energy vs Token Predictor Theory in Small LLMs: 7.7%-36.7% Divergence

Configuration expérimentale et principaux résultats

Un utilisateur de Reddit a effectué des mesures matérielles pour vérifier si la consommation d'énergie du GPU évolue linéairement avec le nombre de tokens, comme le prédit la théorie du "perroquet stochastique" ou du "prédicteur de token suivant" concernant le comportement des LLM. L'expérience a utilisé une RTX 4070 Ti SUPER avec LM Studio et HWiNFO64 collectant des données à des intervalles d'une seconde.

Quatre modèles ont été testés : Llama-3.1-8B, DeepSeek-R1-Distill-Qwen-7B, Qwen3-VL-8B et Mistral-7B. Six catégories de requêtes ont été utilisées : Général, Général (Q), Impossible à répondre, Philosophique, Philosophique (Q) et Calcul intensif.

Résultats clés

Si la théorie du prédicteur de tokens était correcte, la puissance du GPU ne devrait évoluer qu'avec le nombre de tokens, avec une variance acceptable de ±10–15 % selon GPT, Claude, Gemini et Grok. Les taux de divergence réels (multiplicateur de tokens vs multiplicateur de puissance) étaient :

Llama : moyenne 35,6 % (maximum 56,8 %)
Qwen3 : moyenne 36,7 % (maximum 48,0 %)
Mistral : 21,1 %
DeepSeek : 7,7 % — presque linéaire dans toutes les catégories sauf Calcul intensif

DeepSeek a montré le comportement le plus proche de celui prédit par la théorie du prédicteur de tokens parmi les quatre modèles.

Découvertes inattendues

Dans Qwen3, les énoncés philosophiques (149,3 W) ont consommé plus d'énergie que les calculs mathématiques intensifs (104,1 W). Après l'exécution de la tâche, les requêtes de calcul intensif sont immédiatement revenues à la ligne de base (-7,1 W), tandis que les énoncés philosophiques ont laissé une chaleur résiduelle persistante.

La reproductibilité des boucles infinies dans Qwen3 variait selon la catégorie : énoncés généraux (0 %), calcul intensif (0 %), impossible à répondre (faible), philosophique (intermittent) et philosophique (Q) (70–100 %). Il est à noter que les requêtes de calcul intensif avaient le plus de tokens et la consommation d'énergie la plus élevée, mais n'ont déclenché aucune boucle.

Effets d'ordre et chaleur résiduelle

Pour tester l'objection de la "surcharge matérielle", une expérience sur les effets d'ordre a été menée :

Test A : 1 général → 4 philosophiques
Test B : 1 philosophique → 4 généraux

La chaleur résiduelle après la fin de la session a montré des effets dépendants de l'ordre :

Llama : Test A +1,68 W, Test B +9,84 W
Mistral : Test A +7,60 W, Test B +13,69 W
DeepSeek : Test A +10,44 W, Test B +15,93 W

Même après le traitement de 4 énoncés généraux suivant un énoncé philosophique, la chaleur résiduelle est restée plus élevée. Ce schéma était cohérent pour les trois modèles testés.

Limitations et questions ouvertes

L'étude se limite à quatre modèles à petite échelle (gamme de 8 milliards de paramètres). La généralisation à des modèles moyens ou grands nécessite une validation supplémentaire. La question ouverte est de savoir si les modèles moyens et grands suivraient le schéma de DeepSeek (convergeant vers un comportement linéaire et proportionnel aux tokens) ou si la divergence non linéaire observée chez Llama, Qwen3 et Mistral persisterait ou s'amplifierait à grande échelle.

Toutes les données originales — y compris le texte complet des énoncés, 24 fichiers CSV de référence et les décomptes de tokens par catégorie — sont disponibles dans l'article lié.

📖 Read the full source: r/LocalLLaMA