Reverse Engineer Apple Neural Engine: Train MicroGPT Models

Прямой доступ к нейронному движку Apple

Разработчик обошёл фреймворк CoreML от Apple, чтобы получить прямой доступ к нейронному движку Apple (ANE) на Mac mini с чипом M4, создав собственный конвейер обучения для небольших языковых моделей. Проект включал реверс-инжиниринг приватных API ANE с помощью Claude, затем проведение бенчмарков и реализацию обучения без рекомендованного Apple интерфейса CoreML.

Технические характеристики и производительность

ANE на чипе M4 обеспечивает заявленные 38 TFLOPS вычислений INT8, хотя разработчик отмечает, что это фактически процессор FP16, что делает эффективную вычислительную мощность вдвое меньше. Пиковая производительность ANE потребляет всего 2,8 Вт, обеспечивая энергоэффективность 6,6 TFLOPS/ватт. Для сравнения, GPU Metal достигает примерно 1 TFLOPS/ватт, а NVIDIA H100 — 1,4 TFLOPS/ватт.

Реализация обучения

Разработчик создал специализированный конвейер обучения, который успешно обучил модель MicroGPT с 110 млн параметров на ANE. Хотя один чип не может практически обучать более крупные модели, разработчик предполагает, что кластер устройств с ANE теоретически мог бы обучать более масштабные модели. Даже на одном устройстве обучение с использованием LoRA для моделей с 3 или 7 млрд параметров должно быть осуществимо.

Зачем обучать на NPU?

Основная мотивация — энергоэффективность. Эффективность ANE в 6,6 TFLOPS/ватт делает его значительно более энергоэффективным по сравнению с традиционными методами обучения на GPU, что особенно ценно для периферийных вычислений и энергоэффективной разработки.

Доступные ресурсы

Документация по реверс-инжинирингу
Результаты бенчмарков
Реализация обучения (в процессе разработки)
Репозиторий GitHub с кодом

Проект демонстрирует, что нейронный движок Apple, обычно рассматриваемый как «чёрный ящик», можно использовать напрямую для пользовательских рабочих процессов обучения ИИ, предлагая разработчикам альтернативу обучению на GPU с превосходной энергоэффективностью.

📖 Read the full source: r/LocalLLaMA