FairyFuse réalise un accélération de 29,6x du noyau sur les CPU grâce à une inférence sans multiplication de poids ternaire

✍️ OpenClawRadar📅 Publié: May 13, 2026🔗 Source

FairyFuse est un système d'inférence pour les LLM ternaires (valeurs dans {-1,0,+1}) sur CPU grand public. En fusionnant les huit sous-GEMV réels de chaque couche largement linéaire en une seule boucle AVX-512 utilisant des additions et soustractions masquées, il élimine toutes les multiplications en virgule flottante. L'analyse roofline montre qu'une compression de poids 16x déplace les GEMV limités par la mémoire vers le régime de calcul sur les CPU à bande passante limitée, offrant un gain de vitesse du noyau de 29,6x par rapport aux noyaux conventionnels de déquantification et multiplication. Notamment, l'approche offre peu d'avantages sur GPU.

Résultats clés

Débit de bout en bout : 32,4 tokens par seconde sur un seul Intel Xeon 8558P.
Comparaison avec llama.cpp Q4_K_M : 1,24x plus rapide avec une qualité quasi sans perte (perplexité WikiText-2 5,52 contre 5,47 pour FP16 ; précision en aval 66,0% contre 66,0% FP16).
Compression des poids : 16x (2 bits par poids) grâce à la représentation ternaire — aucune déquantification en FP nécessaire.
Technique : Fusionne huit sous-GEMV en une seule boucle AVX-512 utilisant des additions/soustractions masquées — aucune multiplication en virgule flottante du tout.

Contexte

Des travaux antérieurs (Fairy2i) ont montré que les LLM ternaires peuvent égaler la qualité FP16, mais l'exécution n'exploitait pas la structure. FairyFuse comble cette lacune en réarchitecturant l'inférence pour qu'elle soit sans multiplication sur les CPU x86 avec AVX-512.

📖 Lire la source complète : HN LLM Tools

👀 See Also

News

Tencent organise un événement gratuit d'installation d'OpenClaw à Shenzhen face à une forte demande

Tencent a organisé 20 employés à l'extérieur de son immeuble de bureaux à Shenzhen pour installer gratuitement OpenClaw le 6 mars, en réponse à des rapports indiquant que des personnes payaient plus de 70 $ pour des services d'installation à domicile. L'événement a utilisé la plateforme Lighthouse de Tencent Cloud, la plupart des participants étant des professionnels du secteur tertiaire confrontés à la concurrence sur le lieu de travail et à la pression d'adoption de l'IA.

Mar 11, 2026, 11:45 PM UTC

OpenClawRadar

News

Le Composer 2.0 de Cursor semble utiliser le modèle Kimi 2.5, selon les preuves fournies par les points de terminaison d'API.

L'analyse du réseau montre que le Composer 2.0 de Cursor envoie des requêtes à un point de terminaison contenant 'kimi-k2p5-rl-0317-s515-fast', suggérant qu'il est basé sur Kimi 2.5. La licence MIT modifiée exigerait une attribution mais peu d'autres obligations.

Mar 20, 2026, 03:45 PM UTC

OpenClawRadar

News

Anthropic refuse les demandes du Pentagone de supprimer les mesures de sécurité et perd des contrats fédéraux

Anthropic a refusé les exigences du Pentagone de supprimer les garde-fous de sécurité de Claude pour des applications militaires, entraînant l'annulation d'un contrat de 200 millions de dollars et un décret présidentiel interdisant l'utilisation de leur technologie par les agences fédérales.

Feb 28, 2026, 01:45 AM UTC

OpenClawRadar

News

Normalisation de la déviance dans l'IA : pourquoi votre système agentique échouera

L'industrie de l'IA répète les défaillances culturelles de type Challenger : traiter les sorties peu fiables des LLM comme sûres parce que rien de grave ne s'est encore produit. Exemples concrets d'agents formatant des disques durs, effaçant des bases de données et créant des tickets GitHub.

Jun 12, 2026, 12:21 PM UTC

OpenClawRadar