Engenharia Reversa do Apple Neural Engine para Treinar MicroGPT 110M

Acesso Direto ao Neural Engine da Apple

Um desenvolvedor contornou o framework CoreML da Apple para acessar diretamente o Apple Neural Engine (ANE) em um Mac mini M4, criando um pipeline de treinamento personalizado para modelos de linguagem pequenos. O projeto envolveu engenharia reversa das APIs privadas do ANE usando Claude, depois executando benchmarks e implementando treinamento sem a interface CoreML recomendada pela Apple.

Especificações Técnicas e Desempenho

O ANE no chip M4 fornece 38 TFLOPS de computação INT8 declarada, embora o desenvolvedor observe que na verdade é um processador FP16, tornando a computação efetiva metade desse valor. O pico de computação no ANE consome apenas 2,8W, resultando em eficiência de 6,6 TFLOPS/watt. Para comparação, a GPU Metal alcança aproximadamente 1 TFLOPS/watt, enquanto o H100 da NVIDIA chega a 1,4 TFLOPS/watt.

Implementação do Treinamento

O desenvolvedor criou um pipeline de treinamento personalizado que treinou com sucesso um modelo MicroGPT de 110 milhões de parâmetros no ANE. Embora um único chip não possa treinar praticamente modelos maiores, o desenvolvedor sugere que um cluster de dispositivos ANE poderia teoricamente treinar modelos maiores. Mesmo em um único dispositivo, o treinamento LoRA para modelos de 3B ou 7B parâmetros deve ser viável.

Por Que Treinar em NPUs?

A principal motivação é a eficiência energética. A eficiência de 6,6 TFLOPS/watt do ANE o torna significativamente mais eficiente em energia do que os métodos tradicionais de treinamento em GPU, o que é particularmente valioso para computação de borda e desenvolvimento consciente de energia.

Recursos Disponíveis

Documentação de Engenharia Reversa
Resultados de benchmarks
Implementação de treinamento (Trabalho em Andamento)
Repositório GitHub com código

O projeto demonstra que o Neural Engine da Apple, normalmente tratado como uma caixa preta, pode ser acessado diretamente para fluxos de trabalho personalizados de treinamento de IA, oferecendo aos desenvolvedores uma alternativa ao treinamento baseado em GPU com eficiência energética superior.

📖 Leia a fonte completa: r/LocalLLaMA

Engenharia Reversa do Apple Neural Engine para Treinar Modelos MicroGPT

Acesso Direto ao Neural Engine da Apple

Especificações Técnicas e Desempenho

Implementação do Treinamento

Por Que Treinar em NPUs?

Recursos Disponíveis

👀 See Also

Cloken: Uma Extensão do Chrome que Mostra o Uso de Contexto em Tempo Real do Claude como Porcentagem

AIsbf 0.9.8 adiciona cache, melhorias de roteamento e suporte expandido a serviços de IA.

O Session Inspector para Claude Code oferece visibilidade em tempo real nas operações dos agentes de IA.

NervMap: Ferramenta de Descoberta de Serviços e Diagnóstico de Servidor com Comando Único