リバースエンジニアリングでApple Neural Engineに110MパラメータMicroGPTをトレーニング

Apple Neural Engineへの直接アクセス

開発者はAppleのCoreMLフレームワークをバイパスし、M4 Mac mini上のApple Neural Engine（ANE）に直接アクセスすることで、小規模言語モデルのカスタムトレーニングパイプラインを作成しました。このプロジェクトでは、Claudeを使用してANEの非公開APIをリバースエンジニアリングし、ベンチマークを実行した後、Appleが推奨するCoreMLインターフェースを使用せずにトレーニングを実装しました。

技術仕様とパフォーマンス

M4チップ上のANEは、公称38 TFLOPSのINT8演算性能を提供しますが、開発者は実際にはFP16プロセッサであるため、実効的な演算性能はその半分であると指摘しています。ANEのピーク演算時の消費電力はわずか2.8Wで、6.6 TFLOPS/wattの効率を実現しています。比較として、Metal GPUは約1 TFLOPS/watt、NVIDIAのH100は1.4 TFLOPS/wattに達します。

トレーニング実装

開発者はカスタムトレーニングパイプラインを作成し、ANE上で110MパラメータのMicroGPTモデルのトレーニングに成功しました。単一チップではより大規模なモデルのトレーニングは実用的ではありませんが、開発者は複数のANEデバイスをクラスター化することで、理論的にはより大きなモデルのトレーニングが可能だと示唆しています。単一デバイスであっても、3Bや7BパラメータモデルのLoRAトレーニングは実現可能であるはずです。