ローカルLLMとクラウドLLMの一貫したベンチマーク手法

r/LocalLLaMAの開発者が、ローカルLLMとクラウドAPIを比較する際に一貫性のあるベンチマーク数値を得るための方法論を詳述し、異なるレイテンシ、スコアリング、方法論による不公平な比較によくある不満に対処しています。
ベンチマークの核心的な問題
ローカルモデルとクラウドモデルの両方にリクエストを送る素朴な比較では、異なる要素を測定してしまいます。クラウドAPIにはキューイング、負荷分散、ルーティングが関与します。ローカルモデルにはウォームアップ、バッチ処理、GPU競合が関与します。実装された解決策は、順次リクエストのみを使用することです。遅くはありますが(60回の呼び出しベンチマークで約45秒ではなく約3分かかります)、各測定がクリーンであることを保証し、推論時間をキュー時間から分離します。
測定セットアップ
このセットアップでは、ZenMuxを統一エンドポイントとして使用し、GPT-5.4、Claude Sonnet 4.6、Gemini 3.1 Pro、ローカルのLlama 4量子化モデルの4つのモデルに対して1つのベースURLを提供します。このアプローチは、以下のようなOpenAI互換エンドポイントであれば動作します:
- llama.cppサーバー:
curl http://localhost:8080/v1/chat/completions ... - vLLM:
curl http://localhost:8000/v1/chat/completions ... - Ollama:
curl http://localhost:11434/v1/chat/completions ...
重要なのは、すべてに対して同じクライアントコード、タイムアウト設定、リトライロジックを使用することです。
測定の仕組み
システムは5つのモジュールで構成されています:YAML設定 → BenchRunner → AIClient → Analyzer → Reporter。
YAML設定ではタスクとモデルを定義します。例:
suite: coding-benchmark
models:
- gpt-5.4
- claude-sonnet-4.6
- gemini-3.1-pro
- llama-4
runs_per_model: 3
tasks:
- name: fizzbuzz
prompt: "1から100までの数字に対してFizzBuzzを出力するPython関数を書いてください"
- name: refactor-suggestion
prompt: "このコードを改善する提案をしてください:\n\ndef calc(x):\n if x == 0: return 0\n if x == 1: return 1\n return calc(x-1) + calc(x-2)"BenchRunnerは、タスク×モデル×実行回数の直積を取り、APIを順次呼び出し、レイテンシ、プロンプトトークン、完了トークンを記録します。
スコアリング部分
品質スコアリングは、自己選好バイアスを避け、再現性を確保するために、LLMを審判とするのではなくルールベースです。_quality_score関数は3つのシグナルを使用します:
- 応答長:50〜3000文字で4.0点、短い場合は1.0点、長い場合は3.0点。
- フォーマット:箇条書きの存在に応じて最大3.0点を追加。
- コードの存在:コードブロックや関数定義を検出すると2.0点を追加。
最高スコアは9.0点です。これにより、「良い構造化された応答」と「ゴミ/空/幻覚」を相対的にランク付けする信頼性が得られます。レイテンシについては、95パーセンタイル応答時間(P95)も計算されます。
📖 Read the full source: r/LocalLLaMA
👀 See Also

Claude Code v2.1.36:Opus 4.6で高速モードが利用可能になりました
AnthropicはClaude Codeバージョン2.1.36をリリースし、Opus 4.6モデルに高速モードサポートを追加しました。これにより、コード生成と分析が大幅に高速化されます。

Qwen3.5-397B MoE、M1 Ultraでページ化エキスパートローディングにより14GB RAMで動作
Paged MoEエンジンは常時20のエキスパートのみをRAMに保持し、残りをSSDからレイジーロードすることで、209GBの397Bモデルを64GB Mac Studio上で1.59 tok/s、ピークRAM14GBで動作させる。小型モデルのベンチマークも含む。

リバースエンジニアリングされたソースからのClaude Codeのプロダクションエンジニアリングパターンの分析
開発者が、Claude CodeのTypeScriptソースコード約50万行をリバースエンジニアリングし、実際の負荷、実際の資金、実際の攻撃者という条件下で現れるプロダクションエンジニアリングパターンを記録した19章からなる技術ハンドブックを作成しました。

コミュニティソースから編集されたOpenClawリソースリスト
GitHubリポジトリには、セットアップ、構成、メモリシステム、セキュリティ、スキル、モデル互換性、コミュニティリンクをカバーする実用的なOpenClawリソースが集められており、開発者が一般的な情報ギャップを回避するのに役立ちます。