FairyFuse alcança aceleração de kernel de 29,6x em CPUs através de inferência livre de multiplicação de pesos ternários
FairyFuse é um sistema de inferência para LLMs ternários (valores em {-1,0,+1}) em CPUs comuns. Ao fundir os oito sub-GEMVs de valor real de cada camada amplamente linear em um único loop AVX-512 usando adições e subtrações mascaradas, ele elimina todas as multiplicações de ponto flutuante. A análise Roofline mostra que a compressão de peso de 16x desloca o GEMV limitado pela memória para o regime computacional em CPUs com largura de banda limitada, resultando em um ganho de velocidade de kernel de 29,6x em relação aos kernels convencionais de desquantização e multiplicação. Notavelmente, a abordagem oferece pouco benefício em GPUs.
Principais Resultados
- Taxa de transferência ponta a ponta: 32,4 tokens por segundo em um único Intel Xeon 8558P.
- Comparação com llama.cpp Q4_K_M: 1,24x mais rápido com qualidade quase sem perdas (perplexidade WikiText-2 de 5,52 vs. 5,47 para FP16; precisão downstream de 66,0% vs. 66,0% FP16).
- Compressão de peso: 16x (2 bits por peso) devido à representação ternária — sem necessidade de desquantização para FP.
- Técnica: Funde oito sub-GEMVs em um único loop AVX-512 usando adições/subtrações mascaradas — sem multiplicações de ponto flutuante.
Contexto
Trabalhos anteriores (Fairy2i) mostraram que LLMs ternários podem igualar a qualidade FP16, mas o tempo de execução não explorava a estrutura. FairyFuse preenche essa lacuna ao rearquitetar a inferência para ser livre de multiplicações em CPUs x86 com AVX-512.
📖 Leia a fonte completa: HN LLM Tools
👀 See Also

WSJ: CEOs enfrentam escolha difícil com IA – demissões ou acúmulo de mais trabalho
WSJ relata que CEOs estão escolhendo entre demitir funcionários ou atribuir mais trabalho a eles, à medida que ferramentas de IA prometem ganhos de produtividade, com 11 pontos na discussão do HN.

Habilidades do Claude Não Têm Modelo de Negócio para Criadores — O Dilema de um Desenvolvedor
Um post no Reddit destaca que criadores de skills do Claude não conseguem monetizar seu trabalho, já que a Anthropic lançou um excelente runtime, mas parou antes de implementar uma camada de economia de criadores. Os desenvolvedores ficam com projetos open source e nenhum caminho para a sustentabilidade.

Lançamento do Claude-Code v2.1.41: Principais Atualizações e Correções
Claude-Code v2.1.41 introduz aprimoramentos na atualização de autenticação AWS, suporte para Windows ARM64 e correções em várias ferramentas e elementos da interface.

Claude Code v2.1.116: Melhorias de desempenho, correções no terminal e atualizações de segurança
O Claude Code v2.1.116 traz melhorias significativas de desempenho, incluindo até 67% mais rápido no comando /resume em sessões de 40MB+, rolagem mais suave no terminal e inicialização mais rápida do MCP. A versão também corrige problemas de renderização do terminal, adiciona proteções de segurança para operações perigosas com caminhos e resolve vários bugs que afetavam comandos de barra e gerenciamento de plugins.