GPU-Stromverbrauch weicht von der Token-Prädiktor-Theorie bei kleinen LLMs ab

Experimenteller Aufbau und Kernbefunde
Ein Reddit-Nutzer führte Hardware-Messungen durch, um zu testen, ob der GPU-Stromverbrauch linear mit der Token-Anzahl skaliert, wie von der "stochastischen Papageien"- oder "nächster Token-Vorhersage"-Theorie des LLM-Verhaltens vorhergesagt. Das Experiment verwendete eine RTX 4070 Ti SUPER mit LM Studio und HWiNFO64, die Daten in 1-Sekunden-Intervallen sammelten.
Vier Modelle wurden getestet: Llama-3.1-8B, DeepSeek-R1-Distill-Qwen-7B, Qwen3-VL-8B und Mistral-7B. Sechs Anfragekategorien wurden verwendet: Allgemein, Allgemein (Q), Unbeantwortbar, Philosophisch, Philosophisch (Q) und Hochrechenintensiv.
Hauptergebnisse
Wenn die Token-Vorhersage-Theorie korrekt wäre, sollte der GPU-Stromverbrauch nur mit der Token-Anzahl skalieren, mit einer akzeptablen Varianz von ±10–15 % laut GPT, Claude, Gemini und Grok. Tatsächliche Abweichungsraten (Token-Multiplikator vs. Leistungsmultiplikator) waren:
- Llama: Durchschnitt 35,6 % (Maximum 56,8 %)
- Qwen3: Durchschnitt 36,7 % (Maximum 48,0 %)
- Mistral: 21,1 %
- DeepSeek: 7,7 % – nahezu linear über alle Kategorien außer Hochrechenintensiv
DeepSeek zeigte das Verhalten, das am nächsten an der Token-Vorhersage-Theorie lag, von den vier Modellen.
Unerwartete Befunde
Bei Qwen3 zogen philosophische Äußerungen (149,3 W) mehr Leistung als hochrechenintensive Mathematik (104,1 W). Nach Aufgabenabschluss kehrten hochrechenintensive Anfragen sofort auf den Ausgangswert zurück (-7,1 W), während philosophische Äußerungen anhaltende Restwärme hinterließen.
Die Reproduzierbarkeit von Endlosschleifen in Qwen3 variierte nach Kategorie: Allgemeine Äußerungen (0 %), Hochrechenintensiv (0 %), Unbeantwortbar (niedrig), Philosophisch (unterbrochen) und Philosophisch (Q) (70–100 %). Bemerkenswert ist, dass hochrechenintensive Anfragen die meisten Token und den höchsten Stromverbrauch hatten, aber keine Schleifen auslösten.
Reihenfolgeeffekte und Restwärme
Um den Einwand der "Hardware-Overhead" zu testen, wurde ein Reihenfolgeeffekt-Experiment durchgeführt:
- Test A: 1 allgemein → 4 philosophisch
- Test B: 1 philosophisch → 4 allgemein
Restwärme nach Sitzungsende zeigte reihenfolgenabhängige Effekte:
- Llama: Test A +1,68 W, Test B +9,84 W
- Mistral: Test A +7,60 W, Test B +13,69 W
- DeepSeek: Test A +10,44 W, Test B +15,93 W
Sogar nach der Verarbeitung von 4 allgemeinen Äußerungen nach einer philosophischen blieb die Restwärme höher. Dieses Muster war bei allen drei getesteten Modellen konsistent.
Einschränkungen und offene Fragen
Die Studie beschränkt sich auf vier kleinere Modelle (8B-Parameter-Bereich). Eine Verallgemeinerung auf mittlere oder große Modelle erfordert weitere Validierung. Die offene Frage ist, ob mittlere und große Modelle dem Muster von DeepSeek folgen würden (Annäherung an lineares, token-proportionales Verhalten) oder ob die nichtlineare Abweichung, die bei Llama, Qwen3 und Mistral beobachtet wurde, in größerem Maßstab bestehen bleiben oder sich verstärken würde.
Alle Originaldaten – einschließlich vollständigem Äußerungstext, 24 Benchmark-CSVs und Token-Anzahlen pro Kategorie – sind in der verlinkten Arbeit verfügbar.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Wikipedia verbietet KI-generierte Inhalte, erlaubt aber eingeschränkte KI-Nutzung mit menschlicher Prüfung
Wikipedia hat offiziell seinen 260.000 Bearbeitern verboten, KI wie ChatGPT zum Verfassen von Artikeln zu verwenden, und verweist dabei auf Bedenken hinsichtlich Genauigkeit und Zuverlässigkeit. Bearbeiter dürfen KI weiterhin für Übersetzungen und Korrekturlesen mit menschlicher Genehmigung nutzen.

OpenClaw Frühe Nutzerberichte über Probleme mit Telegram, Agentenprofil-Hardcoding und Sitzungsrücksetzungen
Die ersten drei Tage eines Nutzers mit OpenClaw offenbarten mehrere praktische Herausforderungen: Telegram-Antworten verschwinden, Agentenprofile im Quellcode auf 'Messaging' festgelegt und Wacli wird nach Sitzungszurücksetzungen nicht verfügbar. Der Nutzer führte Mikrotests auf Docker durch, verband Telegram und Wacli und richtete einen Heartbeat ein.

Claude Code v2.1.133: Worktree.baseRef-Rücknahme, Sandbox-Pfade, Proxy-Fix für MCP OAuth
Anthropic veröffentlicht v2.1.133 des Claude Code CLI mit einer neuen worktree.baseRef-Einstellung, die standardmäßig fresh (Branch von origin/default) verwendet, sandbox.bwrapPath und sandbox.socatPath für benutzerdefinierte bubblewrap/socat-Binärdateien, einen Proxy/mTLS-Fix für den MCP-OAuth-Ablauf und mehrere Fehlerbehebungen.

Claude Code v2.1.186: MCP-CLI-Authentifizierung, Bash-Auto-Antwort und über 20 Fehlerbehebungen
Claude Code v2.1.186 führt CLI-basierte MCP-Authentifizierung, automatische Antworten auf Bash-Befehle und über 20 Fehlerbehebungen ein, darunter Schlafmodus-Wiederherstellung, Subagent-Berechtigungen und Sitzungskostenanzeige.