Qwen3.5ベンチマーク：Apple Silicon vs AMD GPU（ROCm、Vulkan）

ハードウェアとソフトウェアのセットアップ

ベンチマークでは、3つのシステムを比較しました：Apple M5 Max（48GB統合メモリ）搭載のMacBook Pro、Apple M1 Max（64GB統合メモリ）搭載のMac Studio、そしてIntel Core Ultra 7 265Kプロセッサーと3つのAMD GPU（Radeon Pro W7900（48GB、RDNA 3）、Radeon AI PRO R9700（32GB、RDNA 4）、Radeon Pro W6800（32GB、RDNA 2））を搭載したFedora 43 GPUサーバーです。マザーボードはx8/x8/x4の電気的接続を提供し、W6800はチップセット接続のx4スロットに搭載されており、DMIリンクによってボトルネックが生じていました。

推論エンジンとモデル

Appleシステムではmlx-lm（バージョン0.31.1および0.31.0）を使用しました。Fedoraサーバーでは、llama.cppをHIP/ROCmビルド（b5065）とAMDVLK Vulkanビルド（b5065）の両方で実行しました。ROCmバージョンは7.2、AMDVLKバージョンは2025.Q2.1でした。Fedoraでのすべての実行は単一GPUを使用しましたが、122BモデルではW7900 + R9700を--split-mode layerで使用しました。

テストされたモデルは、Qwen3.5-35B-A3B MoE（3Bアクティブパラメータ、mlx-community 4-bitまたはunsloth Q4_K_M）、Qwen3.5-27B dense（27Bパラメータ、mlx-community 4-bitまたはunsloth Q4_K_M）、およびQwen3.5-122B-A10B MoE（10Bアクティブパラメータ、unsloth Q3_K_XL）でした。

ベンチマーク手法

このベンチマークは、薬剤疫学データ分析のユースケースを反映しています：抽出スクリプトの作成、臨床データに関する推論、規制ナラティブの生成、臨床テキストからの構造化データ抽出です。プロンプトは汎用的なLLMベンチマークではなく、ドメイン固有のものでした。

標準ベンチマークでは、8Kコンテキストと7つのプロンプトを使用しました：2つのプロンプト処理テスト（短い〜27トークンと長い〜2.9Kトークンの入力で、出力を最小限にし、プリフィル速度を分離）と5つの生成タスク（短いコーディング、中程度のコーディング、数学的推論、規制安全ナラティブ作成、構造化有害事象抽出）です。シングルユーザー、シングルリクエスト、温度0.3、/no_thinkで思考モードを無効化、リクエスト間でのプロンプトキャッシングなしでした。

コンテキストスケーリングベンチマークでは、同じモデルとGPUを使用し、段階的に大きなプロンプト（512から16K+トークン）で、合成有害事象リストから構成され、出力トークンは最大64のみとし、入力サイズに応じたプロンプト処理と生成のスケーリングを分離しました。

主な発見

ベンチマークでは、ROCmとAMDVLK Vulkanの興味深い発見が明らかになりました。コンテキストスケーリングテストでは、各バックエンドが最も効果的に機能する条件が示されました。ソースでは、利用可能な比較のほとんどが、M5 MaxノートパソコンとW7900ワークステーションのような構成の選択、またはVulkanよりもROCmをセットアップする手間が価値があるかどうかの判断に役立たないと指摘しています。

📖 Read the full source: r/LocalLLaMA