MicroGPT 110M: Ingeniería Inversa del Motor Neuronal de Apple

Acceso Directo al Motor Neuronal de Apple

Un desarrollador ha evitado el framework CoreML de Apple para acceder directamente al Motor Neuronal de Apple (ANE) en una Mac mini M4, creando un pipeline de entrenamiento personalizado para modelos de lenguaje pequeños. El proyecto involucró la ingeniería inversa de las API privadas del ANE usando Claude, luego ejecutando benchmarks e implementando entrenamiento sin la interfaz CoreML recomendada por Apple.

Especificaciones Técnicas y Rendimiento

El ANE en el chip M4 proporciona 38 TFLOPS de cómputo INT8 declarado, aunque el desarrollador señala que en realidad es un procesador FP16, lo que hace que el cómputo efectivo sea la mitad de esa cantidad. El cómputo máximo en el ANE consume solo 2.8W, resultando en una eficiencia de 6.6 TFLOPS/vatio. Para comparación, la GPU Metal alcanza aproximadamente 1 TFLOPS/vatio, mientras que la H100 de NVIDIA llega a 1.4 TFLOPS/vatio.

Implementación del Entrenamiento

El desarrollador creó un pipeline de entrenamiento personalizado que entrenó exitosamente un modelo MicroGPT de 110M parámetros en el ANE. Aunque un solo chip no puede entrenar prácticamente modelos más grandes, el desarrollador sugiere que un clúster de dispositivos ANE podría teóricamente entrenar modelos más grandes. Incluso en un solo dispositivo, el entrenamiento LoRA para modelos de 3B o 7B parámetros debería ser factible.

¿Por qué Entrenar en NPUs?

La motivación principal es la eficiencia energética. La eficiencia de 6.6 TFLOPS/vatio del ANE lo hace significativamente más eficiente energéticamente que los métodos de entrenamiento tradicionales con GPU, lo cual es particularmente valioso para la computación de borde y el desarrollo consciente de la energía.

Recursos Disponibles

Documentación de Ingeniería Inversa
Resultados de benchmarks
Implementación de entrenamiento (Trabajo en Progreso)
Repositorio GitHub con código

El proyecto demuestra que el Motor Neuronal de Apple, típicamente tratado como una caja negra, puede ser accedido directamente para flujos de trabajo personalizados de entrenamiento de IA, ofreciendo a los desarrolladores una alternativa al entrenamiento basado en GPU con eficiencia energética superior.

📖 Read the full source: r/LocalLLaMA