Orion: LLMs direkt auf Apple Neural Engine ausführen und trainieren

Direkter ANE-Zugriff für LLM-Workloads

Orion bietet ein Ende-zu-Ende-Objective-C-System, das CoreML vollständig umgeht, um LLMs direkt auf der Apple Neural Engine (ANE) auszuführen und zu trainieren. Dieser Ansatz gibt Entwicklern direkte Kontrolle über die ANE, die zuvor von CoreML als Blackbox-Scheduler behandelt wurde, wodurch jegliche direkte Kontrolle oder Trainingsfähigkeit entfiel.

Technische Implementierung und Einschränkungen

Das Projekt baut auf Reverse-Engineering-Arbeiten auf, die die privaten ANEClient- und ANECompiler-APIs kartiert haben. Die ANE weist laut Entwickler eine "Hardware-Impedanz-Fehlanpassung" mit insgesamt 17 Programmierbeschränkungen auf, von denen 11 völlig undokumentiert waren. Zu den wichtigsten Einschränkungen gehören:

Die Concat-Operation führt zu einem sofortigen, stillen Compiler-Fehler
BLOBFILE-Gewichte benötigen einen 64-Byte-Offset vom Chunk-Header, sonst kommt es zu stiller numerischer Korruption
Die ANE behält einen internen Zustand bei, der bei ~119 Kompilierungen pro Prozess hart begrenzt ist, bevor sie still fehlschlägt

Lösungen für Trainingsherausforderungen

Frühere Versuche beim ANE-Training führten nach einem einzigen Schritt zu NaN-Divergenz. Orion löst dies durch:

Aufbau einer verzögerten Kompilierungspipeline
Implementierung strenger Aktivierungsbegrenzung, um fp16-Überlaufkaskaden zu stoppen (Begrenzung der Aktivierungen auf -65504 bis +65504)
Verwendung einer exec()-Prozess-Neustart-Schleife nach jedem Trainingsschritt, um die 119-Kompilierungsgrenze zu umgehen

Leistungsergebnisse

Der Compiler reduziert einen 27-Operationen-Graphen-IR durch fünf Optimierungsdurchläufe auf ANE-natives MIL. Die aktuelle Leistung umfasst:

170+ Token/s für GPT-2 124M Decode
Mechanisch stabiles mehrstufiges Training an einem 110-Millionen-Parameter-Transformer (die "Kohärenzgrenze" der Hardware)
Über 1.000 Schritte fiel der Verlust von 12,3 auf 6,2 ohne NaNs

Aktuelle Einschränkungen

Die ANE bäckt Gewichte zur Kompilierzeit ein, was bedeutet, dass jedes Trainingsupdate eine ~4,2s Rekompilierungsstrafe erfordert. Die ANE zieht ~19 TFLOPS in fp16, aber die grundlegende Einschränkung für ihre Nutzung war nicht die Rechenleistung – sondern das völlige Fehlen einer nativen Orchestrierungsschicht.

📖 Read the full source: r/LocalLLaMA

Orion: Umgehung von CoreML zur direkten Ausführung und Schulung von LLMs auf der Apple Neural Engine

Direkter ANE-Zugriff für LLM-Workloads

Technische Implementierung und Einschränkungen

Lösungen für Trainingsherausforderungen

Leistungsergebnisse

Aktuelle Einschränkungen

👀 Siehe auch

ClawCode: Rust-Neuschreibung des geleakten Claude-Codes in einer Reinraumumgebung

Datenschutzorientiertes MCP-Server-Verzeichnis startet mit dokumentierten Datenverarbeitungsrichtlinien

Agent-Desktop: Strukturierte Desktop-Automatisierung über OS-Zugänglichkeitsbäume

Toroidal Logit Bias: Einfacher Inferenz-Trick reduziert Halluzinationen um 40%