Orion: Umgehung von CoreML zur direkten Ausführung und Schulung von LLMs auf der Apple Neural Engine

✍️ OpenClawRadar📅 Veröffentlicht: 7. März 2026🔗 Source
Orion: Umgehung von CoreML zur direkten Ausführung und Schulung von LLMs auf der Apple Neural Engine
Ad

Direkter ANE-Zugriff für LLM-Workloads

Orion bietet ein Ende-zu-Ende-Objective-C-System, das CoreML vollständig umgeht, um LLMs direkt auf der Apple Neural Engine (ANE) auszuführen und zu trainieren. Dieser Ansatz gibt Entwicklern direkte Kontrolle über die ANE, die zuvor von CoreML als Blackbox-Scheduler behandelt wurde, wodurch jegliche direkte Kontrolle oder Trainingsfähigkeit entfiel.

Technische Implementierung und Einschränkungen

Das Projekt baut auf Reverse-Engineering-Arbeiten auf, die die privaten ANEClient- und ANECompiler-APIs kartiert haben. Die ANE weist laut Entwickler eine "Hardware-Impedanz-Fehlanpassung" mit insgesamt 17 Programmierbeschränkungen auf, von denen 11 völlig undokumentiert waren. Zu den wichtigsten Einschränkungen gehören:

  • Die Concat-Operation führt zu einem sofortigen, stillen Compiler-Fehler
  • BLOBFILE-Gewichte benötigen einen 64-Byte-Offset vom Chunk-Header, sonst kommt es zu stiller numerischer Korruption
  • Die ANE behält einen internen Zustand bei, der bei ~119 Kompilierungen pro Prozess hart begrenzt ist, bevor sie still fehlschlägt
Ad

Lösungen für Trainingsherausforderungen

Frühere Versuche beim ANE-Training führten nach einem einzigen Schritt zu NaN-Divergenz. Orion löst dies durch:

  • Aufbau einer verzögerten Kompilierungspipeline
  • Implementierung strenger Aktivierungsbegrenzung, um fp16-Überlaufkaskaden zu stoppen (Begrenzung der Aktivierungen auf -65504 bis +65504)
  • Verwendung einer exec()-Prozess-Neustart-Schleife nach jedem Trainingsschritt, um die 119-Kompilierungsgrenze zu umgehen

Leistungsergebnisse

Der Compiler reduziert einen 27-Operationen-Graphen-IR durch fünf Optimierungsdurchläufe auf ANE-natives MIL. Die aktuelle Leistung umfasst:

  • 170+ Token/s für GPT-2 124M Decode
  • Mechanisch stabiles mehrstufiges Training an einem 110-Millionen-Parameter-Transformer (die "Kohärenzgrenze" der Hardware)
  • Über 1.000 Schritte fiel der Verlust von 12,3 auf 6,2 ohne NaNs

Aktuelle Einschränkungen

Die ANE bäckt Gewichte zur Kompilierzeit ein, was bedeutet, dass jedes Trainingsupdate eine ~4,2s Rekompilierungsstrafe erfordert. Die ANE zieht ~19 TFLOPS in fp16, aber die grundlegende Einschränkung für ihre Nutzung war nicht die Rechenleistung – sondern das völlige Fehlen einer nativen Orchestrierungsschicht.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

ClawCode: Rust-Neuschreibung des geleakten Claude-Codes in einer Reinraumumgebung
Werkzeuge

ClawCode: Rust-Neuschreibung des geleakten Claude-Codes in einer Reinraumumgebung

ClawCode ist eine Cleanroom-Neuimplementierung des geleakten Claude Code-Quellcodes, die in Rust umgesetzt wurde. Das Projekt entstand nach dem Leak von Anthropics Claude Code und wird mit OpenCode hinsichtlich der End-to-End-Aufgabenleistung verglichen.

OpenClawRadar
Datenschutzorientiertes MCP-Server-Verzeichnis startet mit dokumentierten Datenverarbeitungsrichtlinien
Werkzeuge

Datenschutzorientiertes MCP-Server-Verzeichnis startet mit dokumentierten Datenverarbeitungsrichtlinien

Ein neues Verzeichnis unter toolora.dev/mcp-hub listet MCP-Server mit dokumentierten Datenverarbeitungsrichtlinien auf, einschließlich der Klassifizierung lokal vs. gehostet, welche Daten jedes Tool überträgt und ob Konten erforderlich sind. Der Ersteller bietet auch eine Browser-Testmethode an, um Datenschutzbehauptungen zu überprüfen.

OpenClawRadar
Agent-Desktop: Strukturierte Desktop-Automatisierung über OS-Zugänglichkeitsbäume
Werkzeuge

Agent-Desktop: Strukturierte Desktop-Automatisierung über OS-Zugänglichkeitsbäume

Agent-desktop ist ein plattformübergreifendes CLI (Rust-Binärdatei, ~15 MB), das 53 Befehle mit JSON-Ausgabe bereitstellt, um native Apps durch Betriebssystem-Barrierefreiheits-APIs zu inspizieren und zu bedienen – keine Screenshots oder Vision-Modelle erforderlich. Es verwendet progressives Skeleton-Traversal, um die Token-Nutzung bei dichten Apps wie Slack oder VS Code um 78–96 % zu reduzieren.

OpenClawRadar
Toroidal Logit Bias: Einfacher Inferenz-Trick reduziert Halluzinationen um 40%
Werkzeuge

Toroidal Logit Bias: Einfacher Inferenz-Trick reduziert Halluzinationen um 40%

Eine neue Methode bildet Tokens auf einen Torus ab und verstaerkt nahe Logits, reduziert Fehler ohne Fine-Tuning oder RAG.

OpenClaw Radar