FairyFuse logra una aceleración del kernel de 29.6x en CPUs mediante inferencia sin multiplicación de pesos ternarios

✍️ OpenClawRadar📅 Publicado: 13 de mayo de 2026🔗 Source

FairyFuse es un sistema de inferencia para LLM ternarios (valores en {-1,0,+1}) en CPUs comerciales. Al fusionar los ocho sub-GEMVs de valor real de cada capa ampliamente lineal en un único bucle AVX-512 mediante sumas y restas enmascaradas, elimina todas las multiplicaciones de punto flotante. El análisis roofline muestra que la compresión de pesos 16x desplaza el GEMV limitado por memoria hacia el régimen computacional en CPUs con ancho de banda limitado, logrando una aceleración del kernel de 29.6x sobre los kernels convencionales de des-cuantificar y multiplicar. Cabe destacar que el enfoque ofrece poco beneficio en GPUs.

Resultados Clave

Rendimiento de extremo a extremo: 32.4 tokens por segundo en un solo Intel Xeon 8558P.
Comparación con llama.cpp Q4_K_M: 1.24x más rápido con calidad casi sin pérdidas (perplejidad WikiText-2 5.52 vs. 5.47 para FP16; precisión downstream 66.0% vs. 66.0% FP16).
Compresión de pesos: 16x (2 bits por peso) debido a la representación ternaria — sin necesidad de des-cuantificar a FP.
Técnica: Fusiona ocho sub-GEMVs en un único bucle AVX-512 usando sumas/restas enmascaradas — sin multiplicaciones de punto flotante en absoluto.

Contexto

Trabajo previo (Fairy2i) mostró que los LLM ternarios pueden igualar la calidad FP16, pero el tiempo de ejecución no explotaba la estructura. FairyFuse cierra esa brecha rediseñando la inferencia para que esté libre de multiplicaciones en CPUs x86 con AVX-512.

📖 Lea la fuente completa: HN LLM Tools

👀 Ver también

Noticias

Lovable ofrece acceso gratuito de 24 horas con $350 en créditos de socio para el Día Internacional de la Mujer.

Lovable está ofreciendo acceso gratuito a su plataforma por 24 horas, más $100 en tokens de la API Claude de Anthropic y $250 en créditos para tarifas de procesamiento de Stripe. La oferta termina el 9 de marzo a las 12:59 AM.

17 abr 2026, 20:45 UTC

OpenClawRadar

Noticias

Investigación de Errores de ACP: Desajuste de Protocolo Provoca el Error 'metadata is missing' con Ollama Local

Un error confirmado en la integración ACP/OpenClaw impide que los comandos de generación acpx funcionen con modelos locales de Ollama debido a una incompatibilidad de protocolo donde acpx espera JSON pero recibe salida de texto.

21 mar 2026, 09:45 UTC

OpenClawRadar

Noticias

Error en Claude Code: el reinicio automático de git destruye los cambios sin confirmar cada 10 minutos

La versión 2.1.87 de Claude Code ejecuta git fetch origin + git reset --hard origin/main en el repositorio del proyecto del usuario cada 10 minutos mediante operaciones git programáticas, destruyendo silenciosamente todos los cambios no confirmados en archivos rastreados. El problema fue cerrado como 'no planeado' por Anthropics.

30 mar 2026, 12:45 UTC

OpenClawRadar

Noticias

Investigadores de la UW planean usar cámaras portadas por maestros para entrenamiento de IA, padres pueden optar por no participar

Investigadores de la Universidad de Washington planearon que educadoras de preescolar usaran cámaras en primera persona para grabar a los niños y entrenar modelos de IA, con un modelo de consentimiento de exclusión voluntaria.

19 may 2026, 04:18 UTC

OpenClawRadar