GPU電力消費の非線形性と理論的予測の乖離：7.7%〜36.7%の実測値

実験設定と主要な発見

Redditユーザーが、LLMの動作に関する「確率的オウム」または「次トークン予測」理論が予測するように、GPUの電力消費がトークン数に対して線形にスケールするかどうかをテストするためにハードウェア測定を実施しました。この実験では、RTX 4070 Ti SUPERを使用し、LM StudioとHWiNFO64で1秒間隔でデータを収集しました。

4つのモデルがテストされました：Llama-3.1-8B、DeepSeek-R1-Distill-Qwen-7B、Qwen3-VL-8B、Mistral-7B。6つのクエリカテゴリが使用されました：一般、一般（Q）、回答不能、哲学的、哲学的（Q）、高計算負荷。

主要な結果

トークン予測理論が正しければ、GPT、Claude、Gemini、Grokによると、GPUの電力消費はトークン数にのみ比例し、許容される変動は±10〜15%であるはずです。実際の乖離率（トークン乗数対電力乗数）は以下の通りでした：

Llama：平均35.6%（最大56.8%）
Qwen3：平均36.7%（最大48.0%）
Mistral：21.1%
DeepSeek：7.7% — 高計算負荷を除くすべてのカテゴリでほぼ線形

DeepSeekは、4つのモデルの中でトークン予測理論の動作に最も近い結果を示しました。

予期せぬ発見

Qwen3では、哲学的発話（149.3W）が高計算負荷の数学（104.1W）よりも多くの電力を消費しました。タスク完了後、高計算負荷クエリは直ちにベースラインに戻りました（-7.1W）が、哲学的発話は持続的な残留熱を残しました。

Qwen3における無限ループの再現性はカテゴリによって異なりました：一般発話（0%）、高計算負荷（0%）、回答不能（低）、哲学的（断続的）、哲学的（Q）（70〜100%）。特に、高計算負荷クエリは最も多くのトークンと最高の電力消費を伴いましたが、ループは一切発生しませんでした。

順序効果と残留熱

「ハードウェアオーバーヘッド」という反論をテストするために、順序効果実験が実施されました：

テストA：1つの一般発話 → 4つの哲学的発話
テストB：1つの哲学的発話 → 4つの一般発話

セッション終了後の残留熱は順序依存効果を示しました：

Llama：テストA +1.68W、テストB +9.84W
Mistral：テストA +7.60W、テストB +13.69W
DeepSeek：テストA +10.44W、テストB +15.93W

哲学的な発話の後に4つの一般発話を処理した後でも、残留熱はより高いままでした。このパターンは、テストされた3つのモデルすべてで一貫していました。

制限と未解決の疑問

この研究は、4つの小規模モデル（80億パラメータ範囲）に限定されています。中規模または大規模モデルへの一般化には、さらなる検証が必要です。未解決の疑問は、中規模および大規模モデルがDeepSeekのパターン（線形でトークン比例の動作に収束する）に従うか、それともLlama、Qwen3、Mistralで見られた非線形の乖離が大規模でも持続または増幅するかどうかです。

すべての元データ — 完全な発話テキスト、24のベンチマークCSV、カテゴリごとのトークン数を含む — は、リンクされた論文で入手可能です。

📖 Read the full source: r/LocalLLaMA