FairyFuse réalise un accélération de 29,6x du noyau sur les CPU grâce à une inférence sans multiplication de poids ternaire
FairyFuse est un système d'inférence pour les LLM ternaires (valeurs dans {-1,0,+1}) sur CPU grand public. En fusionnant les huit sous-GEMV réels de chaque couche largement linéaire en une seule boucle AVX-512 utilisant des additions et soustractions masquées, il élimine toutes les multiplications en virgule flottante. L'analyse roofline montre qu'une compression de poids 16x déplace les GEMV limités par la mémoire vers le régime de calcul sur les CPU à bande passante limitée, offrant un gain de vitesse du noyau de 29,6x par rapport aux noyaux conventionnels de déquantification et multiplication. Notamment, l'approche offre peu d'avantages sur GPU.
Résultats clés
- Débit de bout en bout : 32,4 tokens par seconde sur un seul Intel Xeon 8558P.
- Comparaison avec llama.cpp Q4_K_M : 1,24x plus rapide avec une qualité quasi sans perte (perplexité WikiText-2 5,52 contre 5,47 pour FP16 ; précision en aval 66,0% contre 66,0% FP16).
- Compression des poids : 16x (2 bits par poids) grâce à la représentation ternaire — aucune déquantification en FP nécessaire.
- Technique : Fusionne huit sous-GEMV en une seule boucle AVX-512 utilisant des additions/soustractions masquées — aucune multiplication en virgule flottante du tout.
Contexte
Des travaux antérieurs (Fairy2i) ont montré que les LLM ternaires peuvent égaler la qualité FP16, mais l'exécution n'exploitait pas la structure. FairyFuse comble cette lacune en réarchitecturant l'inférence pour qu'elle soit sans multiplication sur les CPU x86 avec AVX-512.
📖 Lire la source complète : HN LLM Tools
👀 See Also

Spotify lance les badges « vérifiés » pour distinguer les artistes humains des créations générées par IA
Spotify ajoute un badge vert 'Vérifié par Spotify' sur les profils d'artistes qui répondent à des critères tels que des comptes de réseaux sociaux liés, des dates de concerts ou des produits dérivés, visant à distinguer les artistes humains des créations générées par IA.

Sandbox externe pour agents : Exécution durable et démarrages à froid
Exécuter la boucle de l'agent en dehors du sandbox isole les identifiants, permet la suspension du sandbox et simplifie le partage multi-utilisateur, mais nécessite de résoudre l'exécution durable et la latence de démarrage à froid.

Mise à jour des performances d'inférence MLX : Benchmarks et fonctionnalités d'avril 2026
Les performances d'inférence MLX se sont considérablement améliorées, avec Qwen3.5-35B-A3B atteignant 71,8 tokens/seconde pour un contexte de 4K, et de nouvelles fonctionnalités comme la prédiction multi-token et le préremplissage spéculatif offrant des accélérations de 2,3x à 5,5x pour les grands modèles.

Extension VS Code Claude cassé sur Windows après un chemin Linux codé en dur dans une mise à jour récente
La récente mise à jour de l'extension VS Code d'Anthropic code en dur un chemin Linux, ce qui casse l'extension sous Windows. Revenir à la version précédente rétablit les fonctionnalités.