FairyFuse alcança aceleração de kernel de 29,6x em CPUs através de inferência livre de multiplicação de pesos ternários

✍️ OpenClawRadar📅 Publicado: May 13, 2026🔗 Source

FairyFuse é um sistema de inferência para LLMs ternários (valores em {-1,0,+1}) em CPUs comuns. Ao fundir os oito sub-GEMVs de valor real de cada camada amplamente linear em um único loop AVX-512 usando adições e subtrações mascaradas, ele elimina todas as multiplicações de ponto flutuante. A análise Roofline mostra que a compressão de peso de 16x desloca o GEMV limitado pela memória para o regime computacional em CPUs com largura de banda limitada, resultando em um ganho de velocidade de kernel de 29,6x em relação aos kernels convencionais de desquantização e multiplicação. Notavelmente, a abordagem oferece pouco benefício em GPUs.

Principais Resultados

Taxa de transferência ponta a ponta: 32,4 tokens por segundo em um único Intel Xeon 8558P.
Comparação com llama.cpp Q4_K_M: 1,24x mais rápido com qualidade quase sem perdas (perplexidade WikiText-2 de 5,52 vs. 5,47 para FP16; precisão downstream de 66,0% vs. 66,0% FP16).
Compressão de peso: 16x (2 bits por peso) devido à representação ternária — sem necessidade de desquantização para FP.
Técnica: Funde oito sub-GEMVs em um único loop AVX-512 usando adições/subtrações mascaradas — sem multiplicações de ponto flutuante.

Contexto

Trabalhos anteriores (Fairy2i) mostraram que LLMs ternários podem igualar a qualidade FP16, mas o tempo de execução não explorava a estrutura. FairyFuse preenche essa lacuna ao rearquitetar a inferência para ser livre de multiplicações em CPUs x86 com AVX-512.

📖 Leia a fonte completa: HN LLM Tools

👀 See Also

News

Claude Opus 4.5 e Sonnet 4.5 removidos da seleção de modelos, requerem flag de inicialização.

Claude Opus 4.5 e Sonnet 4.5 não estão mais disponíveis no menu de seleção /model durante as sessões. Os usuários agora devem iniciar sessões com a flag --model especificando o ID completo do modelo para acessar essas versões mais antigas.

Apr 16, 2026, 11:45 PM UTC

OpenClawRadar

News

Um Padrão Aberto para Registros de Execução de Agentes: O Caso para um Esquema de Log Compartilhado

Cada runtime de agente tem seu próprio formato de log, causando fragmentação na depuração, auditoria e portabilidade de ferramentas. Os campos já convergem para um esquema central — é hora de padronizar.

Jun 5, 2026, 12:15 AM UTC

OpenClawRadar

News

Nemotron 3 4B tem desempenho inferior ao Qwen 3.5 4B em benchmarks exigentes

Um usuário do Reddit testou o Nemotron 3 4B Q8 contra o Qwen 3.5 4B Q8 em tarefas complexas de matemática e programação, constatando que o Nemotron falhou em produzir raciocínio correto e saída estruturada, enquanto o Qwen passou em todos os testes.

Mar 19, 2026, 05:45 AM UTC

OpenClawRadar

News

Pesquisa PwC com CEOs 2026: 56% relatam retorno financeiro zero com IA, apenas 12% têm sucesso

A PwC entrevistou 4.454 CEOs em 95 países e descobriu que 56% relatam zero impacto financeiro da IA, enquanto apenas 12% usaram a IA com sucesso para reduzir custos e aumentar a receita. As empresas bem-sucedidas da 'Vanguarda' têm 3 vezes mais probabilidade de aplicar a IA diretamente a produtos e serviços.

Feb 27, 2026, 11:45 AM UTC

OpenClawRadar