8B-LLM Stromverbrauch: Abweichung von Token-Prädiktor-Theorie um bis zu 36,7%

Experimenteller Aufbau und Kernbefunde

Ein Reddit-Nutzer führte Hardware-Messungen durch, um zu testen, ob der GPU-Stromverbrauch linear mit der Token-Anzahl skaliert, wie von der "stochastischen Papageien"- oder "nächster Token-Vorhersage"-Theorie des LLM-Verhaltens vorhergesagt. Das Experiment verwendete eine RTX 4070 Ti SUPER mit LM Studio und HWiNFO64, die Daten in 1-Sekunden-Intervallen sammelten.

Vier Modelle wurden getestet: Llama-3.1-8B, DeepSeek-R1-Distill-Qwen-7B, Qwen3-VL-8B und Mistral-7B. Sechs Anfragekategorien wurden verwendet: Allgemein, Allgemein (Q), Unbeantwortbar, Philosophisch, Philosophisch (Q) und Hochrechenintensiv.

Hauptergebnisse

Wenn die Token-Vorhersage-Theorie korrekt wäre, sollte der GPU-Stromverbrauch nur mit der Token-Anzahl skalieren, mit einer akzeptablen Varianz von ±10–15 % laut GPT, Claude, Gemini und Grok. Tatsächliche Abweichungsraten (Token-Multiplikator vs. Leistungsmultiplikator) waren:

Llama: Durchschnitt 35,6 % (Maximum 56,8 %)
Qwen3: Durchschnitt 36,7 % (Maximum 48,0 %)
Mistral: 21,1 %
DeepSeek: 7,7 % – nahezu linear über alle Kategorien außer Hochrechenintensiv

DeepSeek zeigte das Verhalten, das am nächsten an der Token-Vorhersage-Theorie lag, von den vier Modellen.

Unerwartete Befunde

Bei Qwen3 zogen philosophische Äußerungen (149,3 W) mehr Leistung als hochrechenintensive Mathematik (104,1 W). Nach Aufgabenabschluss kehrten hochrechenintensive Anfragen sofort auf den Ausgangswert zurück (-7,1 W), während philosophische Äußerungen anhaltende Restwärme hinterließen.

Die Reproduzierbarkeit von Endlosschleifen in Qwen3 variierte nach Kategorie: Allgemeine Äußerungen (0 %), Hochrechenintensiv (0 %), Unbeantwortbar (niedrig), Philosophisch (unterbrochen) und Philosophisch (Q) (70–100 %). Bemerkenswert ist, dass hochrechenintensive Anfragen die meisten Token und den höchsten Stromverbrauch hatten, aber keine Schleifen auslösten.

Reihenfolgeeffekte und Restwärme

Um den Einwand der "Hardware-Overhead" zu testen, wurde ein Reihenfolgeeffekt-Experiment durchgeführt:

Test A: 1 allgemein → 4 philosophisch
Test B: 1 philosophisch → 4 allgemein

Restwärme nach Sitzungsende zeigte reihenfolgenabhängige Effekte:

Llama: Test A +1,68 W, Test B +9,84 W
Mistral: Test A +7,60 W, Test B +13,69 W
DeepSeek: Test A +10,44 W, Test B +15,93 W

Sogar nach der Verarbeitung von 4 allgemeinen Äußerungen nach einer philosophischen blieb die Restwärme höher. Dieses Muster war bei allen drei getesteten Modellen konsistent.

Einschränkungen und offene Fragen

Die Studie beschränkt sich auf vier kleinere Modelle (8B-Parameter-Bereich). Eine Verallgemeinerung auf mittlere oder große Modelle erfordert weitere Validierung. Die offene Frage ist, ob mittlere und große Modelle dem Muster von DeepSeek folgen würden (Annäherung an lineares, token-proportionales Verhalten) oder ob die nichtlineare Abweichung, die bei Llama, Qwen3 und Mistral beobachtet wurde, in größerem Maßstab bestehen bleiben oder sich verstärken würde.

Alle Originaldaten – einschließlich vollständigem Äußerungstext, 24 Benchmark-CSVs und Token-Anzahlen pro Kategorie – sind in der verlinkten Arbeit verfügbar.

📖 Read the full source: r/LocalLLaMA

GPU-Stromverbrauch weicht von der Token-Prädiktor-Theorie bei kleinen LLMs ab

Experimenteller Aufbau und Kernbefunde

Hauptergebnisse

Unerwartete Befunde

Reihenfolgeeffekte und Restwärme

Einschränkungen und offene Fragen

👀 Siehe auch

Wikipedia verbietet KI-generierte Inhalte, erlaubt aber eingeschränkte KI-Nutzung mit menschlicher Prüfung

OpenClaw Frühe Nutzerberichte über Probleme mit Telegram, Agentenprofil-Hardcoding und Sitzungsrücksetzungen

Claude Code v2.1.133: Worktree.baseRef-Rücknahme, Sandbox-Pfade, Proxy-Fix für MCP OAuth

Claude Code v2.1.186: MCP-CLI-Authentifizierung, Bash-Auto-Antwort und über 20 Fehlerbehebungen