AMD Strix Halo ローカルLLMベンチマーク：全45テスト結果

実世界のLLM使用ケースのための実践的ベンチマーク

ホームラボ環境を持つ開発者が、一般的な学術的ベンチマークではなく実際の使用ケースを中心に設計されたカスタム45テストベンチマークスイートを使用して、ローカルLLMの広範なテストを実施しました。テストは、AMD Strix Haloシステム（Ryzen AI MAX+ 395、128GB RAM、96GB共有VRAM）上で、Vulkan/RADVとllama-server（kyuz0 Dockerイメージ）を使用して実行されました。

カスタムベンチマークの重要性

開発者はインタラクティブなコーディングにClaude Opusを使用していますが、24時間365日のサービスにはローカルモデルが必要であり、これには以下が含まれます：

15分ごとに実行され、50通以上のメールを分類するメール分類
モーションアラートを説明するために視覚モデルを使用するカメラ通知
食事制限を考慮した食事計画
税務シナリオとポートフォリオ予測のための財務分析
Home Assistantオートメーションの生成と検証

これらのタスクには、MMLUスコアなどの一般的なベンチマークでは十分に測定できない、高速で信頼性が高く、構造化された出力能力に優れたモデルが必要です。

45テストスイート

このベンチマークには12のカテゴリにわたるテストが含まれており、各テストはClaude Opus 4.6によって特定の評価基準に対して0〜10点で採点されます：

コーディング（4テスト）：Docker Compose、systemdサービス、Pythonスクリプト、コードレビュー
ホームラボ運用（6テスト）：メモリ分析、OOMデバッグ、ディスクトリアージ、ネットワークデバッグ、ログ解析
ツール呼び出し（5テスト）：Proxmox pct/qmコマンド、SSHチェーン、Docker操作、gitワークフロー
食事/食事計画（6テスト）：JSON食事計画、準備スケジュール、レシピのスケーリング、買い物リスト、栄養
財務（5テスト）：税計算、ポートフォリオ分析、FIRE予測、税損失売却
メール分類（3テスト）：カテゴリ割り当て、曖昧なケース、購読解除の決定
Home Assistant（3テスト）：オートメーションYAML、テンプレートセンサー、条件
数学（4テスト）：住宅ローンの返済、確率、数論、税最適化
推論（3テスト）：光熱費、統計、論理制約
指示の遵守（3テスト）：形式の遵守、JSON出力、否定的制約
長文脈（1テスト）：8Kトークンのインフラ文書からの事実抽出
速度（2テスト）：初回トークンまでの時間、持続的生成

9つのテストは、開発者の最も一般的な使用ケースにとって「重要」として2倍の重み付けがされており、最大可能スコアは540です。

テスト方法論

各テストには、良い回答を構成するものを定義する特定の評価基準があります。例えば、メモリ分析テストでは、「空き」メモリ（5.7G）ではなく「利用可能」メモリ（22G）が実際の空きメトリックであり、スワップ使用量は重要でないことを正しく識別する必要があります。税計算テストでは、正しいAGI、課税所得、および税率区分の計算をチェックします。すべての生の回答と評価基準は、相互チェックのために保存されています。