FairyFuse logra una aceleración del kernel de 29.6x en CPUs mediante inferencia sin multiplicación de pesos ternarios

✍️ OpenClawRadar📅 Publicado: 13 de mayo de 2026🔗 Source
Ad

FairyFuse es un sistema de inferencia para LLM ternarios (valores en {-1,0,+1}) en CPUs comerciales. Al fusionar los ocho sub-GEMVs de valor real de cada capa ampliamente lineal en un único bucle AVX-512 mediante sumas y restas enmascaradas, elimina todas las multiplicaciones de punto flotante. El análisis roofline muestra que la compresión de pesos 16x desplaza el GEMV limitado por memoria hacia el régimen computacional en CPUs con ancho de banda limitado, logrando una aceleración del kernel de 29.6x sobre los kernels convencionales de des-cuantificar y multiplicar. Cabe destacar que el enfoque ofrece poco beneficio en GPUs.

Ad

Resultados Clave

  • Rendimiento de extremo a extremo: 32.4 tokens por segundo en un solo Intel Xeon 8558P.
  • Comparación con llama.cpp Q4_K_M: 1.24x más rápido con calidad casi sin pérdidas (perplejidad WikiText-2 5.52 vs. 5.47 para FP16; precisión downstream 66.0% vs. 66.0% FP16).
  • Compresión de pesos: 16x (2 bits por peso) debido a la representación ternaria — sin necesidad de des-cuantificar a FP.
  • Técnica: Fusiona ocho sub-GEMVs en un único bucle AVX-512 usando sumas/restas enmascaradas — sin multiplicaciones de punto flotante en absoluto.

Contexto

Trabajo previo (Fairy2i) mostró que los LLM ternarios pueden igualar la calidad FP16, pero el tiempo de ejecución no explotaba la estructura. FairyFuse cierra esa brecha rediseñando la inferencia para que esté libre de multiplicaciones en CPUs x86 con AVX-512.

📖 Lea la fuente completa: HN LLM Tools

Ad

👀 Ver también

Informe del Índice de IA 2026 de Stanford: Tendencias Clave sobre Inversión, Modelos y Percepción Pública
Noticias

Informe del Índice de IA 2026 de Stanford: Tendencias Clave sobre Inversión, Modelos y Percepción Pública

El informe Índice de IA 2026 de Stanford muestra que la inversión en IA se está disparando, mientras que el impacto en los empleos y la percepción pública sigue siendo mixto. Las empresas estadounidenses lanzaron 50 modelos de IA notables en 2025, con China reduciendo la brecha.

OpenClawRadar
La Prueba Nocturna de Open Claw: Un Paso Adelante en la Automatización de IA
Noticias

La Prueba Nocturna de Open Claw: Un Paso Adelante en la Automatización de IA

La Prueba Nocturna de Open Claw demuestra el potencial de los agentes de codificación impulsados por IA, transformando el procesamiento nocturno en una automatización sin interrupciones. Explora los puntos clave y las discusiones de la comunidad r/openclaw.

OpenClawRadar
Wikipedia Prohíbe el Contenido Generado por IA, Permite Uso Limitado de IA con Revisión Humana
Noticias

Wikipedia Prohíbe el Contenido Generado por IA, Permite Uso Limitado de IA con Revisión Humana

Wikipedia ha prohibido oficialmente a sus 260.000 editores usar IA como ChatGPT para escribir artículos, citando preocupaciones sobre precisión y fiabilidad. Los editores aún pueden usar IA para traducción y corrección de estilo con aprobación humana.

OpenClawRadar
Usuarios de Anthropic Claude Informan Restricción Silenciosa de Funciones en Cuentas de Pago
Noticias

Usuarios de Anthropic Claude Informan Restricción Silenciosa de Funciones en Cuentas de Pago

Un suscriptor pagador de Claude informa que la ejecución de shell/bash dejó de funcionar en todas las sesiones sin notificación, con restricciones integradas en el prompt del sistema a nivel de despliegue. El usuario presentó múltiples tickets de soporte y formularios de apelación pero no recibió respuesta mientras continuaba siendo facturado.

OpenClawRadar