Lightning MLX: Apple Silicon向け高速ローカルAIエンジン、Qwen 35B-A3Bで220 tok/sを実現

Lightning MLXと呼ばれるApple Silicon向けの新しいオープンソース推論エンジンは、エージェントワークフロー(コーディングエージェント、ツール呼び出し、短いターンのタスク)に特化した最速のローカルAIエンジンであると主張しています。このプロジェクトはGitHubのsamuelfaj/lightning-mlxで入手できます。
ベンチマーク結果
作者は128GB RAMのMacBook Max M5でテストし、以下のトークン生成速度を報告しています:
- Qwen3.6-27B: 40.67 tok/s
- Qwen3.6-35B-A3B: 220.86 tok/s
これらの結果は、トークンごとにパラメータのサブセットのみを活性化するQwen3.6-35B-A3Bモデルで使用されている混合専門家アーキテクチャに対して、エンジンが特に効率的であることを示唆しています。
主な機能
- 短いターンのエージェント的ユースケース(コード生成、ツール呼び出し、高速推論ループ)に最適化
- MTPLX(カスタムサンプリングデフォルト)というプリセット構成を含む。作者は、これらのデフォルトが本番使用に適しているかどうかについてフィードバックを求めています。
- GitHub上でMITライセンス(推定)のオープンソース
フィードバック依頼
作成者はコミュニティに以下を積極的に求めています:
- ローカルコーディングエージェント向けのより良いベンチマーク設計
- MTPLXプリセットデフォルトに関する意見
- 他のApple Silicon構成(例:M1、M2、M3、M4、異なるRAMサイズ)でのテスト結果
対象ユーザー
エージェント的コーディングワークフローのためにApple Silicon上でローカルLLMを実行し、最大の推論速度を必要とする開発者。
📖 出典全文: r/LocalLLaMA
👀 See Also

Claude-kit:Claudeコードプロジェクト向け構成管理システム
Claude-kitは、複数のプロジェクトにわたる.claude/ディレクトリ設定を管理するオープンソースツールです。技術スタックを自動検出し、設定を生成、セキュリティと品質を監査、カスタマイズを上書きせずに変更を同期します。

LoreConvo: MCPサーバーがClaude Codeに永続セッションメモリを追加
LoreConvoは、Claude Codeに永続的なセッションメモリを提供するMCPサーバーで、セッション間のコンテキストを自動的に保存・読み込みします。再コンテキスト化のオーバーヘッドを排除することで、セッションごとに3,000〜8,000トークンを節約します。

Humanizerパイプラインをオープンソース化:AIテキスト後処理のための6ステップMarkdownファイル
単一のMarkdownファイルが、チャネル認識、音声調整、深刻度ゲート、自己監査を備えた、AI生成テキストを検出して書き換える6ステップのパイプラインを実装しています。

オープンソースのGTMプラグイン for Claude Code - 166のマーケティングスキルとブートストラップコマンドを搭載
開発者がClaude Code向けのオープンソースGo-To-Marketプラグインをリリースしました。このプラグインは、SEO、コンテンツ、アウトバウンド、セールス、成長、分析、戦略、広告、ソーシャル、CRM、AI検索にわたる166の専門的なマーケティングスキルを提供します。プラグインには、ユーザーにブランドについてインタビューを行い、パーソナライズされたコンテキストファイルを生成する /bootstrap コマンドが含まれています。