M5 MaxとM3 Maxの推論ベンチマーク比較:oMLX上のQwenモデル

Redditユーザー/u/onil_govaは、40 GPUコアと128GB統一メモリを搭載した16インチMacBook ProのM5 MaxとM3 Maxプロセッサを比較する推論ベンチマークを実施しました。テストにはoMLX v0.2.23と、122B-A10B MoE、35B-A3B MoE、27B denseの3つのQwen 3.5モデルが使用されました。
ベンチマーク結果
pp1024/tg128(プロンプト処理長1024、トークン生成長128)では、M5 Maxが顕著な速度向上を示しました:
- 35B-A3B MoE: 134.5 vs 80.3 tg tok/s(1.7倍高速)
- 122B-A10B MoE: 65.3 vs 46.1 tg tok/s(1.4倍高速)
- 27B dense: 32.8 vs 23.0 tg tok/s(1.4倍高速)
パフォーマンスの差は、より長いコンテキストで拡大します。65Kコンテキスト長では、27B denseモデルはM3 Maxで6.8 tg tok/s、M5 Maxで19.6 tg tok/sとなり、2.9倍の差が生じました。
プリフィルとバッチ処理のパフォーマンス
プリフィルの優位性はさらに大きく、長いコンテキスト長ではM5 Maxで最大4倍高速となり、これはM5 MaxのGPUニューラルアクセラレーターによるものです。
バッチ処理パフォーマンスは、エージェント型ワークロードにおいて重要な違いを示しました:
- M5 Maxは、35B-A3Bモデルでバッチサイズ4倍時に2.54倍のスループットにスケーリング
- M3 Maxの密モデルでのバッチ処理はパフォーマンスを低下させました(122Bモデルでバッチ2倍時に0.80倍)
帯域幅の差(M5 Maxで614 GB/s、M3 Maxで400 GB/s)は、マルチステップのエージェントループや並列ツール呼び出しにおいて重要です。
MoE効率に関する洞察
ベンチマークにより、122Bモデル(アクティブパラメータ10B)は両マシンで27B密モデルよりも高速に生成されることが明らかになりました。これは、推論速度を決定するのは総モデルサイズではなく、アクティブパラメータ数であることを示しています。
すべてのチャートとデータを含む完全なインタラクティブな詳細は以下でご覧いただけます: https://claude.ai/public/artifacts/c9fba245-e734-4b3b-be44-a6cabdec6f8f
📖 Read the full source: r/LocalLLaMA
👀 See Also

IDPリーダーボードのベンチマークによると、Claude Sonnet 4.6は文書AIタスクにおいてOpus 4.6と同等の性能を示しています
IDPリーダーボードは、OCR、表抽出、キー抽出、視覚的QA、手書き、長文書の9,000以上のドキュメントで16のAIモデルをテストしました。Claude Sonnet 4.6は総合80.8点で、Opus 4.6の80.3点とほぼ同等の成績を収め、Haiku 4.5は69.6点でした。

Anthropicがサブスクリプション契約を変更、OpenClawユーザーのエージェント使用料は別途請求に
AnthropicはClaude Maxサブスクリプションの適用範囲を、Claude.aiやClaude Codeなどの自社プラットフォームに限定し、すべてのサードパーティエージェントの利用をトークン単位で課金する「追加利用」として扱うようになりました。ユーザーには4つの選択肢があります:Maxプランを継続して追加料金を支払う、Anthropic APIに切り替える、他のプロバイダーに変更する、またはManifestを使用したインテリジェントなルーティングを利用する。

OpenClawの新リリース:単なる名称変更か、それとも大幅なアップグレードか?
以前ClawDBotとして知られていたOpenClawは、変革を遂げました。この変更が単なる見た目の変更なのか、それとも新機能や安定性の向上を導入しているのか、読み進めて確かめてください。

OpenClawスキルに代わる自動化ツールとしてのn8nの探求
RedditのOpenClawコミュニティでは、自動化タスクにおけるn8nとOpenClaw Skillsの使用に関する利点と欠点について議論されています。主な議論のポイントには、使いやすさ、柔軟性、実世界での応用例が含まれます。