ベンチマーク:M5 Max MacBook ProでQwen3-Coder-Next 8ビットを実行するMLXとOllamaの比較

✍️ OpenClawRadar📅 公開日: April 16, 2026🔗 Source
ベンチマーク:M5 Max MacBook ProでQwen3-Coder-Next 8ビットを実行するMLXとOllamaの比較
Ad

Apple Silicon上で8ビット量子化された同じQwen3-Coder-Nextモデルを実行する2つのローカル推論バックエンド—MLX(AppleのネイティブMLフレームワーク)とOllama(llama.cppベース)—を比較するベンチマークが実施されました。目的は、実世界のプログラミングタスクにおける生のスループット(トークン/秒)、初回トークンまでの時間(TTFT)、および全体的なコーディング能力を測定することでした。

方法論

セットアップは以下の通りです:

  • MLXバックエンド: mlx-lm v0.29.1がmlx-community/Qwen3-Coder-Next-8bitをポート8080の組み込みOpenAI互換HTTPサーバーで提供。
  • Ollamaバックエンド: Ollamaがqwen3-coder-next:Q8_0をポート11434のOpenAI互換APIで提供。

両バックエンドは、ストリーミングを有効にしたOpenAIクライアントライブラリを使用する同じPythonベンチマークハーネスからアクセスされました。各テストはプロンプトごとに3回繰り返し実行され、結果は平均化され、最初のプロンプト(モデルロード)の初回コールドスタートTTFTは除外されました。

テストスイート

6つのプロンプトがさまざまなコーディングタスクをカバーしました:

  • 短い補完: 回文チェック関数の作成(最大150トークン)
  • 中程度の生成: 型ヒント付きLRUキャッシュクラスの実装(最大500トークン)
  • 長い推論: async/awaitとスレッディングの比較と例の説明(最大1000トークン)
  • デバッグタスク: マージソートと二分探索のバグの発見と修正(最大800トークン)
  • 複雑なコーディング: コンテキストマネージャー付きスレッドセーフな境界付きブロッキングキュー(最大1000トークン)
  • コードレビュー: 3つの関数のパフォーマンス/正確性/スタイルのレビュー(最大1000トークン)
Ad

結果

M5 Max(128GB RAM)でのスループット(トークン/秒):

  • 短い補完: Ollama 32.51 tok/s、MLX 69.62 tok/s(MLX +114%)
  • 中程度の生成: Ollama 35.97 tok/s、MLX 78.28 tok/s(MLX +118%)
  • 長い推論: Ollama 40.45 tok/s、MLX 78.29 tok/s(MLX +94%)
  • デバッグタスク: Ollama 37.06 tok/s、MLX 74.89 tok/s(MLX +102%)
  • 複雑なコーディング: Ollama 35.84 tok/s、MLX 76.99 tok/s(MLX +115%)
  • コードレビュー: Ollama 39.00 tok/s、MLX 74.98 tok/s(MLX +92%)

全体の平均:MLXは約72トークン/秒を達成し、Ollamaのスループットの約2倍となりました。測定されたメトリクスには、トークン/秒(生成された出力トークン/秒、高いほど良い)、TTFT(リクエスト送信から初回トークン受信までの時間、低いほど良い)、合計時間(完全な応答にかかる実時間、低いほど良い)、およびpsutilで測定されたメモリ使用量が含まれます。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

スキルスキャフォルダー:コードを書かずにOpenClawスキルを構築
Tools

スキルスキャフォルダー:コードを書かずにOpenClawスキルを構築

Skill Scaffolderは、ユーザーがプレーンな英語で望むことを記述するだけでOpenClawスキルを作成できるオープンソースツールです。YAML、Python、設定ファイルを必要とせず、ユーザーへのインタビュー、スキルファイルの作成、テスト、インストールという全プロセスを処理します。

OpenClawRadar
OpenClaw Budget Guard Pluginは、同時予算超過支出を防止します。
Tools

OpenClaw Budget Guard Pluginは、同時予算超過支出を防止します。

新しいOpenClawプラグイン「@runcycles/openclaw-budget-guard」は、アトミックな残高チェック、実行前の予約、冪等性のあるリトライを実装することで、同時実行時の予算超過問題を解決します。Redisを備えたCyclesサーバーが必要で、bashコマンドからインストールできます。

OpenClawRadar
ルフロ:複数のAIエージェントをチームとして稼働させるオープンソースプラットフォーム
Tools

ルフロ:複数のAIエージェントをチームとして稼働させるオープンソースプラットフォーム

Rufloは、複雑なタスクをチームとして協力して取り組むために、多くのAIエージェントを同時に実行できるオープンソースプラットフォームです。以前はClaude Flowとして知られており、タスクを分割する必要があるワークフローの調整を支援します。

OpenClawRadar
トークンリデューサー:インテリジェントなコンテキスト圧縮のためのClaudeコードプラグイン
Tools

トークンリデューサー:インテリジェントなコンテキスト圧縮のためのClaudeコードプラグイン

Token Reducerは、ASTベースのチャンキング、ハイブリッド検索、TextRank圧縮を使用して、リポジトリのコンテキストをローカルで処理し、トークン使用量を90〜98%削減するClaude Codeプラグインです。MITライセンスで、プラグインマーケットプレイスから利用可能です。

OpenClawRadar