ホームラボ開発者、AMD Strix Haloで45の実践テストにより19のローカルLLMをベンチマーク

実世界のLLM使用ケースのための実践的ベンチマーク
ホームラボ環境を持つ開発者が、一般的な学術的ベンチマークではなく実際の使用ケースを中心に設計されたカスタム45テストベンチマークスイートを使用して、ローカルLLMの広範なテストを実施しました。テストは、AMD Strix Haloシステム(Ryzen AI MAX+ 395、128GB RAM、96GB共有VRAM)上で、Vulkan/RADVとllama-server(kyuz0 Dockerイメージ)を使用して実行されました。
カスタムベンチマークの重要性
開発者はインタラクティブなコーディングにClaude Opusを使用していますが、24時間365日のサービスにはローカルモデルが必要であり、これには以下が含まれます:
- 15分ごとに実行され、50通以上のメールを分類するメール分類
- モーションアラートを説明するために視覚モデルを使用するカメラ通知
- 食事制限を考慮した食事計画
- 税務シナリオとポートフォリオ予測のための財務分析
- Home Assistantオートメーションの生成と検証
これらのタスクには、MMLUスコアなどの一般的なベンチマークでは十分に測定できない、高速で信頼性が高く、構造化された出力能力に優れたモデルが必要です。
45テストスイート
このベンチマークには12のカテゴリにわたるテストが含まれており、各テストはClaude Opus 4.6によって特定の評価基準に対して0〜10点で採点されます:
- コーディング(4テスト):Docker Compose、systemdサービス、Pythonスクリプト、コードレビュー
- ホームラボ運用(6テスト):メモリ分析、OOMデバッグ、ディスクトリアージ、ネットワークデバッグ、ログ解析
- ツール呼び出し(5テスト):Proxmox pct/qmコマンド、SSHチェーン、Docker操作、gitワークフロー
- 食事/食事計画(6テスト):JSON食事計画、準備スケジュール、レシピのスケーリング、買い物リスト、栄養
- 財務(5テスト):税計算、ポートフォリオ分析、FIRE予測、税損失売却
- メール分類(3テスト):カテゴリ割り当て、曖昧なケース、購読解除の決定
- Home Assistant(3テスト):オートメーションYAML、テンプレートセンサー、条件
- 数学(4テスト):住宅ローンの返済、確率、数論、税最適化
- 推論(3テスト):光熱費、統計、論理制約
- 指示の遵守(3テスト):形式の遵守、JSON出力、否定的制約
- 長文脈(1テスト):8Kトークンのインフラ文書からの事実抽出
- 速度(2テスト):初回トークンまでの時間、持続的生成
9つのテストは、開発者の最も一般的な使用ケースにとって「重要」として2倍の重み付けがされており、最大可能スコアは540です。
テスト方法論
各テストには、良い回答を構成するものを定義する特定の評価基準があります。例えば、メモリ分析テストでは、「空き」メモリ(5.7G)ではなく「利用可能」メモリ(22G)が実際の空きメトリックであり、スワップ使用量は重要でないことを正しく識別する必要があります。税計算テストでは、正しいAGI、課税所得、および税率区分の計算をチェックします。すべての生の回答と評価基準は、相互チェックのために保存されています。
テストされたモデル
開発者は、Vulkanとllama-serverを使用して、6つのファミリーにわたる19のモデル構成をテストしました。これには以下が含まれます:
- Qwenファミリー:Qwen3.5-122B-A10B(10BアクティブMoE)- 以前に本番環境で使用、Qwen3-Coder-Next 80B-A3B(3Bアクティブ)
- Gemma 4 26B-A4B - 当初は壊れているように見えた2つの別々のバグを修正した後、最終的にトップに立った
開発者は、これは厳密な学術的方法論ではなく、特定のホームラボタスクに最適なモデルを決定するための実践的なテストであると述べています。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

修正版vLLM 0.17.0がTesla P40上で動作し、Qwen3 ASR 1.7Bによるリアルタイム文字起こしを実現しています。
ある開発者がvLLM 0.17.0をTesla P40 GPUで動作するように修正し、Qwen3 ASR 1.7Bモデルを使用したリアルタイム講義文字起こしを実現しました。このフォークはGitHubで公開されています。

開発者がClaude CodeでAI会計アプリを構築
開発者が、フリーランサーや中小企業向けのAI会計アプリ「AICountant」を構築しました。このアプリは、Next.js App Router、PrismaとPostgreSQL、Vercel Blobストレージを含む技術スタック全体でClaude Codeを使用して開発されました。アプリは領収書データを抽出し、過去の為替レートを使用して外貨を変換し、すべてを検索可能な元帳に整理します。

OpenClawをプロセス複製エンジンとして:自動化開発のためのマルチエージェントワークフロー
ある開発者は、OpenClawを個人アシスタントとしてではなく「プロセス複製エンジン」として使用した方が効果的であることを発見し、アイデアからデプロイまでの複雑な開発パイプラインを自動化するマルチエージェントワークフローを構築しました。月額約80ドルで運用されています。

Claude Opus 4.6を使用してコーディング、デバッグ、アーキテクチャを実現した、一人の開発者によるネイティブSwift iOSセラピーアプリの構築
1人の開発者が、Claude Opus 4.6の助けを借りて、オフラインで動作するiOS向け無料のセラピー準備アプリ「Prelude」を開発しました。AIはコード生成、ボイスエージェントのデバッグ、オンデバイスAIパイプラインの設計を担当しました。