110M MicroGPT auf M4 Mac trainieren: ANE Reverse Engineering Guide

Direkter Zugriff auf Apples Neural Engine

Ein Entwickler hat Apples CoreML-Framework umgangen, um direkt auf die Apple Neural Engine (ANE) auf einem M4 Mac mini zuzugreifen und eine benutzerdefinierte Trainingspipeline für kleine Sprachmodelle zu erstellen. Das Projekt umfasste das Reverse Engineering der privaten ANE-APIs mit Claude, gefolgt von Benchmarks und der Implementierung des Trainings ohne Apples empfohlene CoreML-Schnittstelle.

Technische Spezifikationen und Leistung

Die ANE auf dem M4-Chip bietet 38 TFLOPS an angegebener INT8-Rechenleistung, obwohl der Entwickler anmerkt, dass es sich tatsächlich um einen FP16-Prozessor handelt, wodurch die effektive Rechenleistung halbiert wird. Die Spitzenrechenleistung der ANE verbraucht nur 2,8 W, was eine Effizienz von 6,6 TFLOPS/Watt ergibt. Zum Vergleich: Metal GPU erreicht etwa 1 TFLOPS/Watt, während NVIDIAs H100 1,4 TFLOPS/Watt erreicht.

Trainingsimplementierung

Der Entwickler erstellte eine maßgeschneiderte Trainingspipeline, die erfolgreich ein 110M-Parameter-MicroGPT-Modell auf der ANE trainierte. Obwohl ein einzelner Chip größere Modelle praktisch nicht trainieren kann, schlägt der Entwickler vor, dass ein Cluster von ANE-Geräten theoretisch größere Modelle trainieren könnte. Selbst auf einem einzelnen Gerät sollte LoRA-Training für 3B- oder 7B-Parameter-Modelle machbar sein.

Warum auf NPUs trainieren?

Die Hauptmotivation ist die Energieeffizienz. Die Effizienz der ANE von 6,6 TFLOPS/Watt macht sie deutlich energieeffizienter als herkömmliche GPU-Trainingsmethoden, was besonders für Edge Computing und energiebewusste Entwicklung wertvoll ist.

Verfügbare Ressourcen

Reverse-Engineering-Dokumentation
Benchmark-Ergebnisse
Trainingsimplementierung (Work in Progress)
GitHub-Repository mit Code

Das Projekt zeigt, dass Apples Neural Engine, die normalerweise als Black Box behandelt wird, direkt für benutzerdefinierte KI-Trainingsworkflows genutzt werden kann und Entwicklern eine Alternative zum GPU-basierten Training mit überlegener Energieeffizienz bietet.

📖 Read the full source: r/LocalLLaMA