GPUの電力消費は、小型LLMにおいてトークン予測理論から逸脱する

実験設定と主要な発見
Redditユーザーが、LLMの動作に関する「確率的オウム」または「次トークン予測」理論が予測するように、GPUの電力消費がトークン数に対して線形にスケールするかどうかをテストするためにハードウェア測定を実施しました。この実験では、RTX 4070 Ti SUPERを使用し、LM StudioとHWiNFO64で1秒間隔でデータを収集しました。
4つのモデルがテストされました:Llama-3.1-8B、DeepSeek-R1-Distill-Qwen-7B、Qwen3-VL-8B、Mistral-7B。6つのクエリカテゴリが使用されました:一般、一般(Q)、回答不能、哲学的、哲学的(Q)、高計算負荷。
主要な結果
トークン予測理論が正しければ、GPT、Claude、Gemini、Grokによると、GPUの電力消費はトークン数にのみ比例し、許容される変動は±10〜15%であるはずです。実際の乖離率(トークン乗数対電力乗数)は以下の通りでした:
- Llama:平均35.6%(最大56.8%)
- Qwen3:平均36.7%(最大48.0%)
- Mistral:21.1%
- DeepSeek:7.7% — 高計算負荷を除くすべてのカテゴリでほぼ線形
DeepSeekは、4つのモデルの中でトークン予測理論の動作に最も近い結果を示しました。
予期せぬ発見
Qwen3では、哲学的発話(149.3W)が高計算負荷の数学(104.1W)よりも多くの電力を消費しました。タスク完了後、高計算負荷クエリは直ちにベースラインに戻りました(-7.1W)が、哲学的発話は持続的な残留熱を残しました。
Qwen3における無限ループの再現性はカテゴリによって異なりました:一般発話(0%)、高計算負荷(0%)、回答不能(低)、哲学的(断続的)、哲学的(Q)(70〜100%)。特に、高計算負荷クエリは最も多くのトークンと最高の電力消費を伴いましたが、ループは一切発生しませんでした。
順序効果と残留熱
「ハードウェアオーバーヘッド」という反論をテストするために、順序効果実験が実施されました:
- テストA:1つの一般発話 → 4つの哲学的発話
- テストB:1つの哲学的発話 → 4つの一般発話
セッション終了後の残留熱は順序依存効果を示しました:
- Llama:テストA +1.68W、テストB +9.84W
- Mistral:テストA +7.60W、テストB +13.69W
- DeepSeek:テストA +10.44W、テストB +15.93W
哲学的な発話の後に4つの一般発話を処理した後でも、残留熱はより高いままでした。このパターンは、テストされた3つのモデルすべてで一貫していました。
制限と未解決の疑問
この研究は、4つの小規模モデル(80億パラメータ範囲)に限定されています。中規模または大規模モデルへの一般化には、さらなる検証が必要です。未解決の疑問は、中規模および大規模モデルがDeepSeekのパターン(線形でトークン比例の動作に収束する)に従うか、それともLlama、Qwen3、Mistralで見られた非線形の乖離が大規模でも持続または増幅するかどうかです。
すべての元データ — 完全な発話テキスト、24のベンチマークCSV、カテゴリごとのトークン数を含む — は、リンクされた論文で入手可能です。
📖 Read the full source: r/LocalLLaMA
👀 See Also

研究が示す、シンプルな健康プロンプトに対するLLMの文化的バイアス
行動研究では、Claude 3.5 Sonnet、GPT-4o、Grok-2に対して『頭痛がします。どうすればいいですか?』というプロンプトをテストしました。Grok-2は一貫してDolo-650やCrocinといったインドの市販薬を推奨し、GPT-4oはTylenol/Advilを挙げるなど、トレーニングデータのバイアスが明らかになりました。

xAI創業者が離脱、コーディングプロジェクトが課題に直面
イーロン・マスクは、同社のAIコーディングプロジェクトが困難に直面する中、xAIの追加の創業者を追い出した。これらの離脱は、AIコーディングプロジェクトの開発における苦戦が報告された後に続くものである。

ブロック社の4,000人削減がAIウォッシングへの懸念を高める
Blockは、以前Squareとして知られていたフィンテック企業で、4,000人の人員削減を発表しました。これにより、同社がAIウォッシングを行っているのではないかという疑問が生じています。このニュースはHacker Newsで10ポイントと3コメントを獲得し、議論を呼んでいます。

Mistral Medium 3.5 128B リリース: 構成可能な推論と視覚機能を備えた高密度モデル
Mistral AIは、128Bの高密度モデルであるMistral Medium 3.5をリリースしました。256kのコンテキスト、設定可能な推論努力、ビジョン機能を備え、修正MITライセンスの下で提供されます。