MLX vs Ollama: M5 Max で Qwen3-Coder-Next 8ビットベンチマーク

Apple Silicon上で8ビット量子化された同じQwen3-Coder-Nextモデルを実行する2つのローカル推論バックエンド—MLX（AppleのネイティブMLフレームワーク）とOllama（llama.cppベース）—を比較するベンチマークが実施されました。目的は、実世界のプログラミングタスクにおける生のスループット（トークン/秒）、初回トークンまでの時間（TTFT）、および全体的なコーディング能力を測定することでした。

方法論

セットアップは以下の通りです：

MLXバックエンド： mlx-lm v0.29.1がmlx-community/Qwen3-Coder-Next-8bitをポート8080の組み込みOpenAI互換HTTPサーバーで提供。
Ollamaバックエンド： Ollamaがqwen3-coder-next:Q8_0をポート11434のOpenAI互換APIで提供。

両バックエンドは、ストリーミングを有効にしたOpenAIクライアントライブラリを使用する同じPythonベンチマークハーネスからアクセスされました。各テストはプロンプトごとに3回繰り返し実行され、結果は平均化され、最初のプロンプト（モデルロード）の初回コールドスタートTTFTは除外されました。

テストスイート

6つのプロンプトがさまざまなコーディングタスクをカバーしました：

短い補完： 回文チェック関数の作成（最大150トークン）
中程度の生成： 型ヒント付きLRUキャッシュクラスの実装（最大500トークン）
長い推論： async/awaitとスレッディングの比較と例の説明（最大1000トークン）
デバッグタスク： マージソートと二分探索のバグの発見と修正（最大800トークン）
複雑なコーディング： コンテキストマネージャー付きスレッドセーフな境界付きブロッキングキュー（最大1000トークン）
コードレビュー： 3つの関数のパフォーマンス/正確性/スタイルのレビュー（最大1000トークン）

結果

M5 Max（128GB RAM）でのスループット（トークン/秒）：

短い補完： Ollama 32.51 tok/s、MLX 69.62 tok/s（MLX +114%）
中程度の生成： Ollama 35.97 tok/s、MLX 78.28 tok/s（MLX +118%）
長い推論： Ollama 40.45 tok/s、MLX 78.29 tok/s（MLX +94%）
デバッグタスク： Ollama 37.06 tok/s、MLX 74.89 tok/s（MLX +102%）
複雑なコーディング： Ollama 35.84 tok/s、MLX 76.99 tok/s（MLX +115%）
コードレビュー： Ollama 39.00 tok/s、MLX 74.98 tok/s（MLX +92%）

全体の平均：MLXは約72トークン/秒を達成し、Ollamaのスループットの約2倍となりました。測定されたメトリクスには、トークン/秒（生成された出力トークン/秒、高いほど良い）、TTFT（リクエスト送信から初回トークン受信までの時間、低いほど良い）、合計時間（完全な応答にかかる実時間、低いほど良い）、およびpsutilで測定されたメモリ使用量が含まれます。

📖 Read the full source: r/LocalLLaMA

ベンチマーク：M5 Max MacBook ProでQwen3-Coder-Next 8ビットを実行するMLXとOllamaの比較

方法論

テストスイート

結果

👀 See Also

スキルスキャフォルダー：コードを書かずにOpenClawスキルを構築

OpenClaw Budget Guard Pluginは、同時予算超過支出を防止します。

ルフロ：複数のAIエージェントをチームとして稼働させるオープンソースプラットフォーム

トークンリデューサー：インテリジェントなコンテキスト圧縮のためのClaudeコードプラグイン