Fusion de 3 noyaux ANE : optimisation IA pilotée par téléphone

Un développeur a mené 55 expériences d'optimisation sur la branche autoresearch-ane, pilotant principalement le processus depuis son téléphone un samedi. Le travail s'est concentré sur les améliorations de performance du moteur neuronal d'Apple (ANE) grâce à l'optimisation des noyaux et aux changements architecturaux.

Améliorations des performances

Les expériences ont donné des gains mesurables sur plusieurs métriques :

La perte de validation est passée de 3,75 (un retour en arrière par rapport à l'optimisation 3,2) à 2,49
Le temps d'étape s'est amélioré de 176 ms à 96 ms
L'utilisation de l'ANE est passée de 3,6 % à 6,5 %

Changement technique clé

L'amélioration la plus significative est venue de la fusion des noyaux : "Fusionner 3 noyaux ANE en 1 méga-noyau a éliminé 12 allers-retours IOSurface par étape - ce seul changement a surpassé tous les ajustements d'hyperparamètres combinés." Cette optimisation architecturale s'est avérée plus impactante que les ajustements de paramètres.

Détails du flux de travail

Le développeur a utilisé une approche non conventionnelle :

A exécuté les expériences à distance, pilotant depuis son téléphone en de brefs moments
A utilisé Claude pour le brainstorming et l'extraction d'informations des sources publiques listées dans le README du dépôt
A abordé le problème avec "une attention courte et une entrée de jetons minimale" - spéculant sur les directions plutôt que de dicter des étapes précises
A complété 55 expériences avec "plusieurs cas de saisie réelle"
A travaillé en mode non destructif uniquement en raison de contraintes d'autorisations ("pas de rm -rf /* et autres")

Apprentissage principal

Au-delà des améliorations techniques, le développeur a noté : "L'apprentissage principal n'est pas l'amélioration elle-même. C'est qu'une attention courte et une entrée de jetons minimale - brainstormer sur la direction, non dicter les étapes - peut produire des gains mesurables réels sur un problème système difficile."

Le travail a été mené sur l'ordinateur portable du développeur, et il mentionne une divergence de taux d'acceptation : "55vs45 ne correspond pas tout à fait" en référence aux résultats des expériences.

📖 Lire la source complète : r/LocalLLaMA