Lightning MLX: Apple SiliconでQwen 35B-A3Bが220 tok/sを実現

Lightning MLXと呼ばれるApple Silicon向けの新しいオープンソース推論エンジンは、エージェントワークフロー（コーディングエージェント、ツール呼び出し、短いターンのタスク）に特化した最速のローカルAIエンジンであると主張しています。このプロジェクトはGitHubのsamuelfaj/lightning-mlxで入手できます。

ベンチマーク結果

作者は128GB RAMのMacBook Max M5でテストし、以下のトークン生成速度を報告しています：

Qwen3.6-27B: 40.67 tok/s
Qwen3.6-35B-A3B: 220.86 tok/s

これらの結果は、トークンごとにパラメータのサブセットのみを活性化するQwen3.6-35B-A3Bモデルで使用されている混合専門家アーキテクチャに対して、エンジンが特に効率的であることを示唆しています。

主な機能

短いターンのエージェント的ユースケース（コード生成、ツール呼び出し、高速推論ループ）に最適化
MTPLX（カスタムサンプリングデフォルト）というプリセット構成を含む。作者は、これらのデフォルトが本番使用に適しているかどうかについてフィードバックを求めています。
GitHub上でMITライセンス（推定）のオープンソース

フィードバック依頼

作成者はコミュニティに以下を積極的に求めています：

ローカルコーディングエージェント向けのより良いベンチマーク設計
MTPLXプリセットデフォルトに関する意見
他のApple Silicon構成（例：M1、M2、M3、M4、異なるRAMサイズ）でのテスト結果

対象ユーザー

エージェント的コーディングワークフローのためにApple Silicon上でローカルLLMを実行し、最大の推論速度を必要とする開発者。

📖 出典全文: r/LocalLLaMA

Lightning MLX: Apple Silicon向け高速ローカルAIエンジン、Qwen 35B-A3Bで220 tok/sを実現

ベンチマーク結果

主な機能

フィードバック依頼

対象ユーザー

👀 See Also

OpenEvol：会話履歴を活用したLLMのためのオフライン自己改善パイプライン

SourceBridge：ローカルLLMを使用したコードベース分析のためのオープンソースツール

ポケットボットベータ：プライバシー重視のiOS AIエージェント、ハイブリッドローカル/クラウドエンジン搭載

Devvit向けのClaudeスキルにより、コード生成の精度が73%から100%に向上しました。

ベンチマーク結果

主な機能

フィードバック依頼

対象ユーザー

👀 See Also

OpenEvol：会話履歴を活用したLLMのためのオフライン自己改善パイプライン

SourceBridge：ローカルLLMを使用したコードベース分析のためのオープンソースツール

ポケットボット ベータ：プライバシー重視のiOS AIエージェント、ハイブリッドローカル/クラウドエンジン搭載

Devvit向けのClaudeスキルにより、コード生成の精度が73%から100%に向上しました。

ポケットボットベータ：プライバシー重視のiOS AIエージェント、ハイブリッドローカル/クラウドエンジン搭載