Orion: Contornando o CoreML para Executar e Treinar LLMs Diretamente no Apple Neural Engine

✍️ OpenClawRadar📅 Publicado: March 7, 2026🔗 Source
Orion: Contornando o CoreML para Executar e Treinar LLMs Diretamente no Apple Neural Engine
Ad

Acesso Direto ao ANE para Cargas de Trabalho de LLM

Orion fornece um sistema Objective-C completo que ignora completamente o CoreML para executar e treinar LLMs diretamente no Apple Neural Engine (ANE). Essa abordagem dá aos desenvolvedores controle direto sobre o ANE, que anteriormente era tratado como um agendador de caixa-preta pelo CoreML, removendo qualquer controle direto ou capacidade de treinamento.

Implementação Técnica e Restrições

O projeto se baseia em trabalhos de engenharia reversa que mapearam as APIs privadas ANEClient e ANECompiler. O ANE apresenta o que o desenvolvedor chama de "incompatibilidade de impedância de hardware" com 17 restrições de programação no total, 11 das quais eram completamente não documentadas. As principais restrições incluem:

  • A operação de concatenação causa uma falha imediata e silenciosa do compilador
  • Os pesos BLOBFILE exigem um deslocamento de 64 bytes do cabeçalho do bloco, ou você obtém corrupção numérica silenciosa
  • O ANE mantém um estado interno que tem um limite fixo de aproximadamente 119 compilações por processo antes de falhar silenciosamente
Ad

Soluções para Desafios de Treinamento

Tentativas anteriores de treinamento no ANE atingiram divergência NaN após uma única etapa. Orion resolve isso por:

  • Configurando um pipeline de compilação diferida
  • Implementando limitação estrita de ativação para impedir cascata de overflow fp16 (limitando ativações de -65504 a +65504)
  • Usando um loop de reinicialização de processo exec() após cada etapa de treinamento para contornar o limite de 119 compilações

Resultados de Desempenho

O compilador reduz um grafo IR de 27 operações através de cinco passos de otimização até o MIL nativo do ANE. O desempenho atual inclui:

  • Mais de 170 tokens/s para decodificação do GPT-2 124M
  • Treinamento mecanicamente estável em múltiplas etapas em um transformer de 110 milhões de parâmetros (o "teto de coerência" do hardware)
  • Em mais de 1.000 etapas, a perda caiu de 12,3 para 6,2 sem nenhum NaN

Limitações Atuais

O ANE incorpora pesos no momento da compilação, o que significa que cada atualização de treinamento requer uma penalidade de recompilação de aproximadamente 4,2 segundos. O ANE atinge aproximadamente 19 TFLOPS em fp16, mas a restrição fundamental para usá-lo não tem sido a capacidade de computação—tem sido a completa falta de uma camada de orquestração nativa.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Mielina: Extrator e Avaliador MD para Memória Procedural de Código Claude
Tools

Mielina: Extrator e Avaliador MD para Memória Procedural de Código Claude

Myelin é um servidor MCP que se conecta ao Claude Code via PostToolUse para capturar chamadas de ferramentas, extraindo automaticamente arquivos de procedimento .md de sessões bem-sucedidas e rastreando se Claude segue os procedimentos existentes passo a passo.

OpenClawRadar
🦀
Tools

Servidor MCP TextExpander Permite que a IA Claude Acesse e Gerencie Sua Biblioteca de Snippets

A TextExpander lançou um servidor MCP gratuito que conecta sua biblioteca de snippets ao Claude. O Claude pode listar, pesquisar, criar e editar snippets em massa, incluindo campos dinâmicos como datas e menus suspensos.

OpenClawRadar
O Plugin Claude Compact Guard Usa o Novo Hook PostCompact para Preservar o Contexto
Tools

O Plugin Claude Compact Guard Usa o Novo Hook PostCompact para Preservar o Contexto

Um desenvolvedor lançou o claude-compact-guard, um plugin que salva automaticamente o contexto crítico antes que o comando /compact do Claude o destrua, e depois reinjeta tudo após a compactação. Ele usa o novo gancho PostCompact da Anthropic, lançado há 4 dias.

OpenClawRadar
Plugin Claude Code para Pesquisa de Negócios no Reddit
Tools

Plugin Claude Code para Pesquisa de Negócios no Reddit

Um plugin do Claude Code automatiza a pesquisa no Reddit para empresas, buscando postagens relevantes, analisando discussões e gerando relatórios estruturados em markdown com descobertas e links de origem. Sem necessidade de chaves de API — instale via GitHub e execute com um único comando.

OpenClawRadar