Apple Neural EngineのリバースエンジニアリングによるMicroGPTモデルのトレーニング

Apple Neural Engineへの直接アクセス
開発者はAppleのCoreMLフレームワークをバイパスし、M4 Mac mini上のApple Neural Engine(ANE)に直接アクセスすることで、小規模言語モデルのカスタムトレーニングパイプラインを作成しました。このプロジェクトでは、Claudeを使用してANEの非公開APIをリバースエンジニアリングし、ベンチマークを実行した後、Appleが推奨するCoreMLインターフェースを使用せずにトレーニングを実装しました。
技術仕様とパフォーマンス
M4チップ上のANEは、公称38 TFLOPSのINT8演算性能を提供しますが、開発者は実際にはFP16プロセッサであるため、実効的な演算性能はその半分であると指摘しています。ANEのピーク演算時の消費電力はわずか2.8Wで、6.6 TFLOPS/wattの効率を実現しています。比較として、Metal GPUは約1 TFLOPS/watt、NVIDIAのH100は1.4 TFLOPS/wattに達します。
トレーニング実装
開発者はカスタムトレーニングパイプラインを作成し、ANE上で110MパラメータのMicroGPTモデルのトレーニングに成功しました。単一チップではより大規模なモデルのトレーニングは実用的ではありませんが、開発者は複数のANEデバイスをクラスター化することで、理論的にはより大きなモデルのトレーニングが可能だと示唆しています。単一デバイスであっても、3Bや7BパラメータモデルのLoRAトレーニングは実現可能であるはずです。
NPUでトレーニングする理由
主な動機は電力効率です。ANEの6.6 TFLOPS/wattという効率は、従来のGPUトレーニング手法よりも大幅に電力効率が高く、エッジコンピューティングやエネルギーを意識した開発において特に価値があります。
利用可能なリソース
- リバースエンジニアリングのドキュメント
- ベンチマーク結果
- トレーニング実装(進行中)
- コードを含むGitHubリポジトリ
このプロジェクトは、通常ブラックボックスとして扱われるAppleのNeural Engineが、カスタムAIトレーニングワークフローのために直接アクセス可能であり、開発者にGPUベースのトレーニングに代わる優れた電力効率の選択肢を提供することを実証しています。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

Mandala v0.3: 物流テレメトリをエージェント推論のためのOpenTelemetryスパンとして統合するオープンソースの非同期ランタイム
Mandala v0.3は、Samsara、Descartes、Vizion、FMCSAからのテレメトリをWebhookで取り込み、イベントをOpenTelemetryスパンとして出力し、MCPツールを介してLLMエージェントにデータを公開するオープンソースの非同期ランタイムです。

Claudeスキルにより、定量化された変数を用いた詳細な性格調整が可能になります。
新しいClaudeスキルにより、開発者はClaudeが定義する120の変数をカバーする32の性格特性グループに対して、定量化された調整を行うことが可能になりました。グループレベルのプロファイルには、Wordiness(60)、Agreeableness(55)、Sarcasm & Edge(17)などの指標が表示されます。このスキルは会話をまたいで持続し、カスタム指示用のpublishコマンドを含みます。

Redditでの議論:適切なモデルアーキテクチャなしでは、AI従業員の人格安定性にIdentity.mdファイルは不十分
Redditの議論では、基盤となるモデルアーキテクチャが役割分離をシミュレートするだけで、真の境界を強制できない場合、アイデンティティ.mdファイルを調整してAI従業員チームの人格混入を防ぐことは効果的ではないと主張されています。この投稿では、100回以上の自己進化サイクルを通じて基本トレーニングに境界認識を組み込んだMinimax M2.7バックエンドの使用を推奨しています。

Vibeyard、Claude CodeにP2Pセッション共有機能を追加
Vibeyard、Claude Code用のオープンソースIDEが、ピアツーピアのセッション共有をサポートしました。ユーザーは、読み取り専用または読み書き可能なアクセスモードで、暗号化されたWebRTC接続を介してチームメイトとライブターミナルセッションを共有できます。