ベンチマーク:M5 Max MacBook ProでQwen3-Coder-Next 8ビットを実行するMLXとOllamaの比較

Apple Silicon上で8ビット量子化された同じQwen3-Coder-Nextモデルを実行する2つのローカル推論バックエンド—MLX(AppleのネイティブMLフレームワーク)とOllama(llama.cppベース)—を比較するベンチマークが実施されました。目的は、実世界のプログラミングタスクにおける生のスループット(トークン/秒)、初回トークンまでの時間(TTFT)、および全体的なコーディング能力を測定することでした。
方法論
セットアップは以下の通りです:
- MLXバックエンド: mlx-lm v0.29.1がmlx-community/Qwen3-Coder-Next-8bitをポート8080の組み込みOpenAI互換HTTPサーバーで提供。
- Ollamaバックエンド: Ollamaがqwen3-coder-next:Q8_0をポート11434のOpenAI互換APIで提供。
両バックエンドは、ストリーミングを有効にしたOpenAIクライアントライブラリを使用する同じPythonベンチマークハーネスからアクセスされました。各テストはプロンプトごとに3回繰り返し実行され、結果は平均化され、最初のプロンプト(モデルロード)の初回コールドスタートTTFTは除外されました。
テストスイート
6つのプロンプトがさまざまなコーディングタスクをカバーしました:
- 短い補完: 回文チェック関数の作成(最大150トークン)
- 中程度の生成: 型ヒント付きLRUキャッシュクラスの実装(最大500トークン)
- 長い推論: async/awaitとスレッディングの比較と例の説明(最大1000トークン)
- デバッグタスク: マージソートと二分探索のバグの発見と修正(最大800トークン)
- 複雑なコーディング: コンテキストマネージャー付きスレッドセーフな境界付きブロッキングキュー(最大1000トークン)
- コードレビュー: 3つの関数のパフォーマンス/正確性/スタイルのレビュー(最大1000トークン)
結果
M5 Max(128GB RAM)でのスループット(トークン/秒):
- 短い補完: Ollama 32.51 tok/s、MLX 69.62 tok/s(MLX +114%)
- 中程度の生成: Ollama 35.97 tok/s、MLX 78.28 tok/s(MLX +118%)
- 長い推論: Ollama 40.45 tok/s、MLX 78.29 tok/s(MLX +94%)
- デバッグタスク: Ollama 37.06 tok/s、MLX 74.89 tok/s(MLX +102%)
- 複雑なコーディング: Ollama 35.84 tok/s、MLX 76.99 tok/s(MLX +115%)
- コードレビュー: Ollama 39.00 tok/s、MLX 74.98 tok/s(MLX +92%)
全体の平均:MLXは約72トークン/秒を達成し、Ollamaのスループットの約2倍となりました。測定されたメトリクスには、トークン/秒(生成された出力トークン/秒、高いほど良い)、TTFT(リクエスト送信から初回トークン受信までの時間、低いほど良い)、合計時間(完全な応答にかかる実時間、低いほど良い)、およびpsutilで測定されたメモリ使用量が含まれます。
📖 Read the full source: r/LocalLLaMA
👀 See Also

スキルスキャフォルダー:コードを書かずにOpenClawスキルを構築
Skill Scaffolderは、ユーザーがプレーンな英語で望むことを記述するだけでOpenClawスキルを作成できるオープンソースツールです。YAML、Python、設定ファイルを必要とせず、ユーザーへのインタビュー、スキルファイルの作成、テスト、インストールという全プロセスを処理します。

OpenClaw Budget Guard Pluginは、同時予算超過支出を防止します。
新しいOpenClawプラグイン「@runcycles/openclaw-budget-guard」は、アトミックな残高チェック、実行前の予約、冪等性のあるリトライを実装することで、同時実行時の予算超過問題を解決します。Redisを備えたCyclesサーバーが必要で、bashコマンドからインストールできます。

ルフロ:複数のAIエージェントをチームとして稼働させるオープンソースプラットフォーム
Rufloは、複雑なタスクをチームとして協力して取り組むために、多くのAIエージェントを同時に実行できるオープンソースプラットフォームです。以前はClaude Flowとして知られており、タスクを分割する必要があるワークフローの調整を支援します。

トークンリデューサー:インテリジェントなコンテキスト圧縮のためのClaudeコードプラグイン
Token Reducerは、ASTベースのチャンキング、ハイブリッド検索、TextRank圧縮を使用して、リポジトリのコンテキストをローカルで処理し、トークン使用量を90〜98%削減するClaude Codeプラグインです。MITライセンスで、プラグインマーケットプレイスから利用可能です。