Qwen3.5 397B: DGX Spark vs Mac Studio M3 Ultra 比較

ローカルQwen3.5 397Bのハードウェア比較

開発者はClaude APIトークンに月2,000ドルを費やした後、合計2万ドルをローカルハードウェアに投資しました：Mac Studio M3 Ultra 512GBとデュアルDGX Sparkセットアップで、それぞれ税込み約1万ドルです。両方ともQwen3.5 397B A17Bをローカルで実行してテストされました。

Mac Studio M3 Ultra 512GBの性能

MLX 6ビット量子化を使用し、323GBモデルが512GB統一メモリにロードされました。生成速度は30-40トークン/秒で、メモリ帯域幅は約800GB/sで、トークン生成はスムーズに感じられました。セットアップは簡単でした：mlx vlmをインストールし、モデルを指定するだけです。弱点には、プリフィルが遅い（大きなシステムプロンプトで30秒以上）、推論と並行してバッチ埋め込みを実行すると性能が低下することが含まれます。開発者は、mlx vlmがツール呼び出しを解析したり思考トークンをネイティブに除去しないため、500行の非同期プロキシを書く必要がありました。

デュアルDGX Sparkセットアップの性能

INT4 AutoRound量子化を使用し、vLLM TP=2経由で2つの128GBノードにわたってノードあたり98GBがロードされました。生成速度は27-28トークン/秒でした。セットアップはCUDAテンソルコア、vLLMカーネル、テンソル並列処理を活用し、Mac Studioよりも高速なプリフィルを実現しました。MLXで数日かかったバッチ埋め込みは、CUDAでは数時間で完了しました。メモリ帯域幅はノードあたり約273GB/sで、より多くの計算にもかかわらず生成速度を制限しました。

セットアップの課題は重大でした：QSFPケーブルは1本しか機能せず（2本目はNCCLをクラッシュ）、Node2のIPは一時的、GPUメモリ使用率の上限は0.88（二分探索で見つける必要あり）、間違った推測はチェックポイントシャードの再ロードで15分かかり、すべてのモデルロード前に両ノードでページキャッシュをフラッシュする必要があり、一部のユニットは20分以内にサーマルスロットリングしました。開発者は、安定性を達成するのに数日かかったと報告しています。

アーキテクチャとユースケース

開発者は両システムを保持し、Mac Studioを推論専用（モデルとKVキャッシュに512GB全量使用）に、SparkをRAG、埋め込み、再ランキング、その他のタスクに使用しています。これらはTailscale経由で通信します。この分離により、埋め込みモデルがMac Studioのメモリをメインモデルと競合するのを防ぎながら、Spark専用のCUDAリソースを提供します。

直接比較仕様

コスト： 両方とも1万ドル
メモリ： Mac Studio 512GB統一メモリ vs. Spark 256GB（128×2）
帯域幅： Mac Studio 約800GB/s vs. Spark ノードあたり約273GB/s
量子化： Mac Studio MLX 6ビット（323GB） vs. Spark INT4 AutoRound（98GB/ノード）
生成速度： Mac Studio 30-40トークン/秒 vs. Spark 27-28トークン/秒
最大コンテキスト： Mac Studio 256Kトークン vs. Spark 130K+トークン
セットアップ： Mac Studio 簡単だが手動作業あり vs. Spark 困難
強み： Mac Studio 帯域幅 vs. Spark 計算能力
弱み： Mac Studio 計算能力 vs. Spark 帯域幅

推奨事項

Mac Studioは、すぐに動作させたい場合、スムーズな生成のための800GB/s帯域幅を重視する場合、推論と並行して重い埋め込みワークロードを計画していない場合に推奨されます。デュアルSparkは、LinuxとDockerに慣れている場合、CUDAとvLLMをネイティブに使用したい場合、RAGや埋め込みを推論と並行して実行する計画がある場合、より長期的な能力のために初期セットアップに数日を費やす意思がある場合に推奨されます。開発者は、Mac Studioは20%の努力で80%の体験を提供し、Sparkはより多くの能力を提供するがセットアップ時間に実際のコストがかかると述べています。

損益分岐点計算：月2,000ドルのAPI支出 vs. 合計2万ドルのハードウェアは、損益分岐点まで10か月で、その後は完全なプライバシーで推論が無料になります。

📖 Read the full source: r/LocalLLaMA