Engenharia Reversa do Apple Neural Engine para Treinar Modelos MicroGPT

Acesso Direto ao Neural Engine da Apple
Um desenvolvedor contornou o framework CoreML da Apple para acessar diretamente o Apple Neural Engine (ANE) em um Mac mini M4, criando um pipeline de treinamento personalizado para modelos de linguagem pequenos. O projeto envolveu engenharia reversa das APIs privadas do ANE usando Claude, depois executando benchmarks e implementando treinamento sem a interface CoreML recomendada pela Apple.
Especificações Técnicas e Desempenho
O ANE no chip M4 fornece 38 TFLOPS de computação INT8 declarada, embora o desenvolvedor observe que na verdade é um processador FP16, tornando a computação efetiva metade desse valor. O pico de computação no ANE consome apenas 2,8W, resultando em eficiência de 6,6 TFLOPS/watt. Para comparação, a GPU Metal alcança aproximadamente 1 TFLOPS/watt, enquanto o H100 da NVIDIA chega a 1,4 TFLOPS/watt.
Implementação do Treinamento
O desenvolvedor criou um pipeline de treinamento personalizado que treinou com sucesso um modelo MicroGPT de 110 milhões de parâmetros no ANE. Embora um único chip não possa treinar praticamente modelos maiores, o desenvolvedor sugere que um cluster de dispositivos ANE poderia teoricamente treinar modelos maiores. Mesmo em um único dispositivo, o treinamento LoRA para modelos de 3B ou 7B parâmetros deve ser viável.
Por Que Treinar em NPUs?
A principal motivação é a eficiência energética. A eficiência de 6,6 TFLOPS/watt do ANE o torna significativamente mais eficiente em energia do que os métodos tradicionais de treinamento em GPU, o que é particularmente valioso para computação de borda e desenvolvimento consciente de energia.
Recursos Disponíveis
- Documentação de Engenharia Reversa
- Resultados de benchmarks
- Implementação de treinamento (Trabalho em Andamento)
- Repositório GitHub com código
O projeto demonstra que o Neural Engine da Apple, normalmente tratado como uma caixa preta, pode ser acessado diretamente para fluxos de trabalho personalizados de treinamento de IA, oferecendo aos desenvolvedores uma alternativa ao treinamento baseado em GPU com eficiência energética superior.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Sistema de Memória Local para Ferramentas de Codificação IA Extrai Mais de 2.600 Fatos de Registros de Conversas
Um desenvolvedor criou uma camada de memória local que ingere registros de conversa do Claude Code, Factory.ai e Codex CLI, extrai fatos estruturados usando um LLM local e injeta automaticamente contexto em novas sessões. Após meses de uso, indexou mais de 13.000 mensagens e extraiu mais de 2.600 fatos.

Cognithor v0.40.0 adiciona identidade persistente de agente de IA com restrições éticas
O Cognithor v0.40.0 apresenta o Protocolo Mente Imortal, concedendo aos agentes de IA locais identidade persistente entre sessões com 7 âncoras éticas embutidas e ciclos de sonho para consolidação de memória. A atualização adiciona 9.488 linhas de código e roda 100% localmente.

Tycono: Plataforma de Agentes de IA de Código Aberto com Organograma e Ciclos de Melhoria Autônoma
Tycono é um sistema de código aberto onde você define funções de agentes de IA em YAML (CTO, engenheiro, QA, etc.) e eles trabalham juntos seguindo um organograma com ciclos de melhoria autônoma. O sistema executou 17 rodadas durante a noite em uma tarefa de jogo de corrida de pixels, gerando 6.796 linhas de código em 43 commits.

Attesor: Engenharia Reversa com IA do Rosetta 2 para Máquina Virtual Linux
Attesor é um projeto do GitHub que utiliza IA para engenharia reversa da tecnologia de tradução binária Rosetta 2 da Apple, visando documentar sua arquitetura e potencialmente habilitar a tradução de x86_64 para ARM64 em máquinas virtuais Linux.