Rétro-ingénierie du Neural Engine d'Apple pour entraîner des modèles MicroGPT

Accès Direct au Neural Engine d'Apple
Un développeur a contourné le framework CoreML d'Apple pour accéder directement au Neural Engine (ANE) sur un Mac mini M4, créant un pipeline d'entraînement personnalisé pour les petits modèles de langage. Le projet a impliqué la rétro-ingénierie des API privées de l'ANE en utilisant Claude, puis l'exécution de benchmarks et la mise en œuvre de l'entraînement sans l'interface CoreML recommandée par Apple.
Spécifications Techniques et Performances
L'ANE sur la puce M4 fournit 38 TFLOPS de calcul INT8 revendiqué, bien que le développeur note qu'il s'agit en réalité d'un processeur FP16, ce qui réduit de moitié la puissance de calcul effective. Le pic de calcul sur l'ANE ne consomme que 2,8 W, résultant en une efficacité de 6,6 TFLOPS/watt. À titre de comparaison, le GPU Metal atteint environ 1 TFLOPS/watt, tandis que le H100 de NVIDIA atteint 1,4 TFLOPS/watt.
Mise en Œuvre de l'Entraînement
Le développeur a créé un pipeline d'entraînement sur mesure qui a réussi à entraîner un modèle MicroGPT de 110 millions de paramètres sur l'ANE. Bien qu'une seule puce ne puisse pas entraîner pratiquement des modèles plus grands, le développeur suggère qu'un cluster de dispositifs ANE pourrait théoriquement entraîner des modèles plus volumineux. Même sur un seul dispositif, l'entraînement LoRA pour des modèles de 3 ou 7 milliards de paramètres devrait être réalisable.
Pourquoi Entraîner sur des NPU ?
La motivation principale est l'efficacité énergétique. L'efficacité de 6,6 TFLOPS/watt de l'ANE la rend nettement plus économe en énergie que les méthodes d'entraînement traditionnelles sur GPU, ce qui est particulièrement précieux pour l'informatique en périphérie et le développement soucieux de l'énergie.
Ressources Disponibles
- Documentation de rétro-ingénierie
- Résultats des benchmarks
- Mise en œuvre de l'entraînement (en cours)
- Dépôt GitHub avec le code
Le projet démontre que le Neural Engine d'Apple, généralement traité comme une boîte noire, peut être accédé directement pour des workflows d'entraînement d'IA personnalisés, offrant aux développeurs une alternative à l'entraînement basé sur GPU avec une efficacité énergétique supérieure.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

OmniCoder-9B : Agent de codage à 9 milliards de paramètres affiné sur 425 000 trajectoires agentiques
Tesslate a publié OmniCoder-9B, un modèle d'agent de codage à 9 milliards de paramètres affiné sur l'architecture hybride de Qwen3.5-9B. Il a été entraîné sur plus de 425 000 trajectoires de codage agentique sélectionnées provenant de Claude Opus 4.6, GPT-5.4, GPT-5.3-Codex et Gemini 3.1 Pro.

Les 5 plus grandes collections SKILL.md de Claude Code suivies sur GitHub — Tableau triable avec auto-actualisation
Création d'un tableau triable des 5 principaux dépôts de collections de compétences (totalisant 125k étoiles) avec le nombre d'étoiles et de compétences, actualisé automatiquement par la commande /workflows:skill-collections.

Spécialiste open-source, l'adaptateur Dispatch délègue les tâches complexes à Claude Code.
expert-dispatch est un script bash d'environ 500 lignes qui permet à une IA d'assistance bon marché de déléguer des tâches de codage complexes à Claude Code CLI. Il utilise des commandes comme dispatch-cc run pour envoyer des tâches et maintient des répertoires par projet avec CLAUDE.md pour un contexte persistant.

Rival-Review : Une boucle d'évaluation croisée pour les plans d'agents IA
Rival-review est un outil sous licence MIT qui utilise un second modèle d'IA pour auditer les plans d'un agent d'IA de codage principal avant leur exécution, détectant des problèmes tels que des plans de retour arrière défectueux, des failles de sécurité et des décisions basées sur des états obsolètes.