オリオン:CoreMLをバイパスしてLLMをApple Neural Engine上で直接実行およびトレーニングする方法

✍️ OpenClawRadar📅 公開日: March 7, 2026🔗 Source
オリオン:CoreMLをバイパスしてLLMをApple Neural Engine上で直接実行およびトレーニングする方法
Ad

LLMワークロードのための直接ANEアクセス

Orionは、CoreMLを完全にバイパスし、LLMをApple Neural Engine(ANE)上で直接実行およびトレーニングするエンドツーエンドのObjective-Cシステムを提供します。このアプローチにより、開発者はANEを直接制御できるようになります。これまでCoreMLによってブラックボックススケジューラとして扱われ、直接制御やトレーニングの能力が剥奪されていたANEに対して、直接的なコントロールが可能になります。

技術的実装と制約

このプロジェクトは、非公開のANEClientおよびANECompiler APIをマッピングしたリバースエンジニアリングの成果に基づいています。ANEは、開発者が「ハードウェアインピーダンスミスマッチ」と呼ぶ17のプログラミング制約を提示しており、そのうち11は完全に文書化されていませんでした。主な制約には以下が含まれます:

  • concat操作は即座に、サイレントなコンパイラエラーを引き起こす
  • BLOBFILEウェイトはチャンクヘッダーから64バイトのオフセットを必要とし、そうでないとサイレントな数値破損が発生する
  • ANEは内部状態を維持しており、プロセスあたり約119回のコンパイルでハードキャップされ、その後サイレントに失敗する

トレーニング課題への解決策

以前のANEトレーニングの試みでは、1ステップ後にNaN発散が発生していました。Orionは以下によってこの問題を解決します:

  • 遅延コンパイルパイプラインを構築する
  • fp16オーバーフロー連鎖を防ぐための厳密なアクティベーションクランプを実装(アクティベーションを-65504から+65504にクランプ)
  • 119回コンパイル制限を回避するために、各トレーニングステップ後にexec()プロセス再起動ループを使用する
Ad

パフォーマンス結果

コンパイラは、27オペレーションのグラフIRを5つの最適化パスを通じてANEネイティブのMILに変換します。現在のパフォーマンスには以下が含まれます:

  • GPT-2 124Mデコードで170+トークン/秒
  • 110Mパラメータのトランスフォーマーでの機械的に安定した多段階トレーニング(ハードウェアの「コヒーレンス上限」)
  • 1,000ステップ以上にわたり、損失が12.3から6.2に減少し、NaNはゼロ

現在の制限

ANEはコンパイル時にウェイトを固定するため、トレーニングの更新ごとに約4.2秒の再コンパイルペナルティが発生します。ANEはfp16で約19 TFLOPSを発揮しますが、その使用における根本的な制約は計算能力ではなく、ネイティブなオーケストレーションレイヤーの完全な欠如でした。

📖 完全なソースを読む: r/LocalLLaMA

Ad

👀 See Also

W2A — エージェントセンサーのためのオープンプロトコル:ローカルエージェントにリアルタイム知覚を提供する
Tools

W2A — エージェントセンサーのためのオープンプロトコル:ローカルエージェントにリアルタイム知覚を提供する

W2A(World2Agent)はAIエージェントの認識層を標準化するオープンプロトコルです。セルフホスト可能、TypeScript SDK、Apache 2.0ライセンス。ワンオフのスクリプトなしでセンサーからのリアルタイム信号をエージェントが受信できます。

OpenClawRadar
Claude使用状況モニター:Windows用フローティングCRTウィジェット
Tools

Claude使用状況モニター:Windows用フローティングCRTウィジェット

開発者が、セッションと週間の使用量バーをリアルタイムで表示し、7つのカラーテーマを備え、画面がロックされたり全画面モードの際には自動的に一時停止するWindowsウィジェットを構築しました。

OpenClawRadar
ビーグルSCM:ASTツリーを保存するソースコード管理システム
Tools

ビーグルSCM:ASTツリーを保存するソースコード管理システム

Beagleは、バイナリブロブではなく抽象構文木を格納する実験的なソースコード管理システムで、BASONと呼ばれるCRDT風のデータ形式を使用し、RocksDBなどのキーバリュー型データベースをバックエンドストレージとして利用します。

OpenClawRadar
SMELTコンパイラは、OpenClawワークスペースのトークン使用量を最大95%削減します。
Tools

SMELTコンパイラは、OpenClawワークスペースのトークン使用量を最大95%削減します。

SMELTは、OpenClawワークスペースのマークダウンファイルをより高密度なランタイム形式にコンパイルし、AIモデルに送信するコンテンツを関連するものだけに絞ります。ベンチマークでは、クエリごとのトークン数が76.1%から95.5%削減され、USER.mdやSOUR.mdなどの静的ファイルをメッセージごとに再処理する必要がなくなります。

OpenClawRadar