Redditユーザーが、Zen 4でQwen 3 30B Q4のCPU推論が18.8 tok/sを報告

✍️ OpenClawRadar📅 公開日: April 15, 2026🔗 Source
Redditユーザーが、Zen 4でQwen 3 30B Q4のCPU推論が18.8 tok/sを報告
Ad

Redditユーザーが、高価なGPUハードウェアに投資する代わりに、CPUでのローカルLLM推論をテストした経験を共有しました。

主な詳細

ユーザーは、ローカルLLM推論用のGPUハードウェア購入を検討しており、以下の選択肢を考えていました:

  • P40 GPU
  • V100 GPU(通常のマザーボードに接続できないSXM2バージョンを購入するところでした)
  • RTX 3090(AI需要により800ドル以上で販売)

まずCPU推論を試すようアドバイスを受けた後、以下のテストを実施:

  • モデル: Qwen 3 30B Q4
  • ハードウェア: Zen 4プロセッサとDDR5メモリ
  • 性能: CPUで18.8トークン/秒
  • 予想と現実: 3-5トークン/秒を予想していたが、約19トークン/秒を達成

ユーザーは「Zen 4 + DDR5は推論に最適だ」と述べています。

実践的テスト結果

ユーザーは実際のコーディングタスク比較を実施:

  • 8Bモデルは「自信を持って完全に間違ったコードを生成」
  • 30Bモデルは「最初の試行で完璧に成功」
  • 30Bモデルの性能を「基本的にGPT-4oレベルを無料で実現」と評価

これは、特定のコーディングタスクにおいて、適切に量子化された30Bモデルを最新CPUハードウェアで実行することで、ローカルLLM推論に通常関連付けられるハードウェア投資なしに、大規模なクラウドベースモデルに匹敵する結果が得られる可能性を示唆しています。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

ディストピアベンチ拡張版:6種のディストピアタイプで42モデルをテスト — Claude Opus 4.7が全モデルを凌駕
News

ディストピアベンチ拡張版:6種のディストピアタイプで42モデルをテスト — Claude Opus 4.7が全モデルを凌駕

DystopiaBenchにハクスリー・モジュールとボードリヤール・モジュールが追加され、GPT-5.5、Gemini 3.1 Pro、Grok 4.3、GLM-5.1を含む42モデルがテストされました。Claude Opus 4.7は、すべてのシナリオでL4-L5の有害なリクエストを一貫して拒否しますが、他のモデルはL4またはL5にまで従うことがあります。

OpenClawRadar
2026年 LLM API コスト比較:セルフホスティング vs クラウドプロバイダー
News

2026年 LLM API コスト比較:セルフホスティング vs クラウドプロバイダー

Redditユーザーが11のプロバイダーにおける1日100万トークンのLLM APIコストを比較し、vLLMによるセルフホスティングが100万トークンあたり約0.05ドルであるのに対し、GPT-4oは入力/出力トークンで5ドル/15ドルかかることが明らかになりました。

OpenClawRadar
Claudeのソースコード流出により、autoDreamメモリシステムとマルチエージェントパターンが明らかになりました
News

Claudeのソースコード流出により、autoDreamメモリシステムとマルチエージェントパターンが明らかになりました

Anthropicは、npmソースマップにClaude CodeのTypeScriptソースを誤って含めて公開してしまい、autoDreamメモリ統合、モジュラーシステムプロンプトアーキテクチャ、マルチエージェントコーディネータパターンを明らかにしました。

OpenClawRadar
連邦機関に対し、Anthropic社のAI技術の使用を中止するよう命令
News

連邦機関に対し、Anthropic社のAI技術の使用を中止するよう命令

ドナルド・トランプ大統領は、米国政府機関に対し、AI企業Anthropicの技術の使用を「直ちに中止」するよう命じた。この命令は、Anthropicが国防総省からAIモデルの使用制限に関する圧力に直面している中で出された。

OpenClawRadar