Orion: Execute e Treine LLMs Diretamente no Apple Neural Engine

Acesso Direto ao ANE para Cargas de Trabalho de LLM

Orion fornece um sistema Objective-C completo que ignora completamente o CoreML para executar e treinar LLMs diretamente no Apple Neural Engine (ANE). Essa abordagem dá aos desenvolvedores controle direto sobre o ANE, que anteriormente era tratado como um agendador de caixa-preta pelo CoreML, removendo qualquer controle direto ou capacidade de treinamento.

Implementação Técnica e Restrições

O projeto se baseia em trabalhos de engenharia reversa que mapearam as APIs privadas ANEClient e ANECompiler. O ANE apresenta o que o desenvolvedor chama de "incompatibilidade de impedância de hardware" com 17 restrições de programação no total, 11 das quais eram completamente não documentadas. As principais restrições incluem:

A operação de concatenação causa uma falha imediata e silenciosa do compilador
Os pesos BLOBFILE exigem um deslocamento de 64 bytes do cabeçalho do bloco, ou você obtém corrupção numérica silenciosa
O ANE mantém um estado interno que tem um limite fixo de aproximadamente 119 compilações por processo antes de falhar silenciosamente

Soluções para Desafios de Treinamento

Tentativas anteriores de treinamento no ANE atingiram divergência NaN após uma única etapa. Orion resolve isso por:

Configurando um pipeline de compilação diferida
Implementando limitação estrita de ativação para impedir cascata de overflow fp16 (limitando ativações de -65504 a +65504)
Usando um loop de reinicialização de processo exec() após cada etapa de treinamento para contornar o limite de 119 compilações

Resultados de Desempenho

O compilador reduz um grafo IR de 27 operações através de cinco passos de otimização até o MIL nativo do ANE. O desempenho atual inclui:

Mais de 170 tokens/s para decodificação do GPT-2 124M
Treinamento mecanicamente estável em múltiplas etapas em um transformer de 110 milhões de parâmetros (o "teto de coerência" do hardware)
Em mais de 1.000 etapas, a perda caiu de 12,3 para 6,2 sem nenhum NaN

Limitações Atuais

O ANE incorpora pesos no momento da compilação, o que significa que cada atualização de treinamento requer uma penalidade de recompilação de aproximadamente 4,2 segundos. O ANE atinge aproximadamente 19 TFLOPS em fp16, mas a restrição fundamental para usá-lo não tem sido a capacidade de computação—tem sido a completa falta de uma camada de orquestração nativa.

📖 Leia a fonte completa: r/LocalLLaMA