ベンチマーク結果:Apple SiliconとAMD GPU(ROCmおよびVulkan)におけるQwen3.5モデルの比較

✍️ OpenClawRadar📅 公開日: March 26, 2026🔗 Source
ベンチマーク結果:Apple SiliconとAMD GPU(ROCmおよびVulkan)におけるQwen3.5モデルの比較
Ad

ハードウェアとソフトウェアのセットアップ

ベンチマークでは、3つのシステムを比較しました:Apple M5 Max(48GB統合メモリ)搭載のMacBook Pro、Apple M1 Max(64GB統合メモリ)搭載のMac Studio、そしてIntel Core Ultra 7 265Kプロセッサーと3つのAMD GPU(Radeon Pro W7900(48GB、RDNA 3)、Radeon AI PRO R9700(32GB、RDNA 4)、Radeon Pro W6800(32GB、RDNA 2))を搭載したFedora 43 GPUサーバーです。マザーボードはx8/x8/x4の電気的接続を提供し、W6800はチップセット接続のx4スロットに搭載されており、DMIリンクによってボトルネックが生じていました。

推論エンジンとモデル

Appleシステムではmlx-lm(バージョン0.31.1および0.31.0)を使用しました。Fedoraサーバーでは、llama.cppをHIP/ROCmビルド(b5065)とAMDVLK Vulkanビルド(b5065)の両方で実行しました。ROCmバージョンは7.2、AMDVLKバージョンは2025.Q2.1でした。Fedoraでのすべての実行は単一GPUを使用しましたが、122BモデルではW7900 + R9700を--split-mode layerで使用しました。

テストされたモデルは、Qwen3.5-35B-A3B MoE(3Bアクティブパラメータ、mlx-community 4-bitまたはunsloth Q4_K_M)、Qwen3.5-27B dense(27Bパラメータ、mlx-community 4-bitまたはunsloth Q4_K_M)、およびQwen3.5-122B-A10B MoE(10Bアクティブパラメータ、unsloth Q3_K_XL)でした。

Ad

ベンチマーク手法

このベンチマークは、薬剤疫学データ分析のユースケースを反映しています:抽出スクリプトの作成、臨床データに関する推論、規制ナラティブの生成、臨床テキストからの構造化データ抽出です。プロンプトは汎用的なLLMベンチマークではなく、ドメイン固有のものでした。

標準ベンチマークでは、8Kコンテキストと7つのプロンプトを使用しました:2つのプロンプト処理テスト(短い〜27トークンと長い〜2.9Kトークンの入力で、出力を最小限にし、プリフィル速度を分離)と5つの生成タスク(短いコーディング、中程度のコーディング、数学的推論、規制安全ナラティブ作成、構造化有害事象抽出)です。シングルユーザー、シングルリクエスト、温度0.3、/no_thinkで思考モードを無効化、リクエスト間でのプロンプトキャッシングなしでした。

コンテキストスケーリングベンチマークでは、同じモデルとGPUを使用し、段階的に大きなプロンプト(512から16K+トークン)で、合成有害事象リストから構成され、出力トークンは最大64のみとし、入力サイズに応じたプロンプト処理と生成のスケーリングを分離しました。

主な発見

ベンチマークでは、ROCmとAMDVLK Vulkanの興味深い発見が明らかになりました。コンテキストスケーリングテストでは、各バックエンドが最も効果的に機能する条件が示されました。ソースでは、利用可能な比較のほとんどが、M5 MaxノートパソコンとW7900ワークステーションのような構成の選択、またはVulkanよりもROCmをセットアップする手間が価値があるかどうかの判断に役立たないと指摘しています。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

DeepSeek有料APIがプロンプトをトレーニングに使用 — OpenClawユーザーが知っておくべきこと
News

DeepSeek有料APIがプロンプトをトレーニングに使用 — OpenClawユーザーが知っておくべきこと

DeepSeekの公式APIは、有料ティアであってもプロンプトをトレーニングに使用します。Geminiは無料のAI Studioでのみログを記録します。OpenClawは現在デフォルトでDeepSeek V4 Flashを使用しています。個人データを処理する際は注意してください。

OpenClawRadar
ジェンマ4リリース:ローカルAIホスティング向け4つのモデルサイズ
News

ジェンマ4リリース:ローカルAIホスティング向け4つのモデルサイズ

Googleは、エッジデバイス、ノートパソコン、GPUなど、さまざまなハードウェア向けに最適化された4つのモデルサイズを備えたGemma 4をリリースしました。すべてのモデルはテキストと画像のマルチモーダル機能を備えており、小型モデルはリアルタイム音声をサポートしています。

OpenClawRadar
ジェミニ3フラッシュの性能向上を競争的プロンプティングで実現
News

ジェミニ3フラッシュの性能向上を競争的プロンプティングで実現

研究者らは、人間のような嫉妬心を動機として活用する競争的プロンプティング技術を用いることで、Gemini 3 FlashがClaude 4.6 Opusのベンチマーク性能の95%を達成し、コストは1/200、速度は4倍に向上させた。

OpenClawRadar
NYC病院がPalantir契約を終了、英国での拡大に監視の目
News

NYC病院がPalantir契約を終了、英国での拡大に監視の目

ニューヨーク市の公立病院システムは、10月にパランティアとの400万ドルの契約を更新せず、自社システムへの移行を進める。一方、パランティアは、NHSとの3億3000万ポンドの契約や英国の金融規制当局との新契約をめぐり、プライバシー懸念に直面している。

OpenClawRadar