FairyFuse erreicht 29,6-fache Kernel-Beschleunigung auf CPUs durch ternäre gewichtsfreie Inferenz
FairyFuse ist ein Inferenzsystem für ternäre (Werte in {-1,0,+1}) LLMs auf handelsüblichen CPUs. Durch die Verschmelzung der acht reellwertigen Sub-GEMVs jeder breit-linearer Schicht zu einer einzigen AVX-512-Schleife mittels maskierter Additionen und Subtraktionen werden alle Gleitkomma-Multiplikationen eliminiert. Eine Roofline-Analyse zeigt, dass die 16-fache Gewichtskomprimierung den speichergebundenen GEMV auf bandbreitenbegrenzten CPUs in Richtung des Rechenregimes verschiebt, was einen 29,6-fachen Kernel-Beschleunigungsfaktor gegenüber herkömmlichen Dequantisierungs-und-Multiplikations-Kernels ergibt. Bemerkenswerterweise bietet der Ansatz auf GPUs kaum Vorteile.
Wichtigste Ergebnisse
- End-to-End-Durchsatz: 32,4 Tokens pro Sekunde auf einem einzelnen Intel Xeon 8558P.
- Vergleich mit llama.cpp Q4_K_M: 1,24-mal schneller bei nahezu verlustfreier Qualität (WikiText-2 Perplexität 5,52 gegenüber 5,47 für FP16; nachgelagerte Genauigkeit 66,0 % gegenüber 66,0 % FP16).
- Gewichtskomprimierung: 16-fach (2 Bit pro Gewicht) aufgrund der ternären Darstellung – keine Dequantisierung zu FP erforderlich.
- Technik: Verschmilzt acht Sub-GEMVs zu einer einzigen AVX-512-Schleife mittels maskierter Additionen/Subtraktionen – überhaupt keine Gleitkomma-Multiplikationen.
Kontext
Vorherige Arbeiten (Fairy2i) zeigten, dass ternäre LLMs die FP16-Qualität erreichen können, aber die Laufzeit nutzte die Struktur nicht aus. FairyFuse schließt diese Lücke, indem es die Inferenz auf x86-CPUs mit AVX-512 multiplikationsfrei neu gestaltet.
📖 Lesen Sie die vollständige Quelle: HN LLM Tools
👀 Siehe auch

Lovable bietet 100 US-Dollar kostenlose Claude-API-Guthaben zum Internationalen Frauentag an.
Lovable verschenkt 100 US-Dollar in Anthropic Claude API-Guthaben, 250 US-Dollar in Stripe-Gebühren-Guthaben und 24-stündigen kostenlosen Zugang zu ihrer Plattform bis zum 8. März. Nutzer müssen das Angebot vor 12:59 Uhr ET am 9. März einlösen.

Benchmarking der neuesten KI-Modelle: Der Aufstieg der extremen Modelle
Eine detaillierte Bewertung von 40 neuen KI-Modellen zeigt einen gespaltenen Markt, in dem 'God Mode' und 'Flash Mode' führend sind. Mittelklasse-Modelle gelten mittlerweile als obsolet.

Open Source vs. Frontier-Modelle: Einzeldatei-Canvas-Autoszene-Benchmark
Ein Entwickler testete 12 Modelle, darunter GPT-5.5, Claude Opus 4.7 und Qwen 3.6 Plus, an einer Einzeldatei-HTML-Canvas-Fahranimationsaufgabe, deren Ergebnisse öffentlich verglichen wurden.

Benchmarks zeigen, dass destillierte Modelle bei strukturierten Aufgaben mit Spitzen-LLMs mithalten können – bei 10-fach geringeren Kosten.
Ein umfassender Vergleich kleiner destillierter Qwen3-Modelle (0,6B bis 8B) mit führenden LLMs zeigt, dass destillierte Modelle bei 6 von 9 Aufgaben mittlere führende Modelle erreichen oder übertreffen – bei deutlich geringeren Kosten. Text2SQL erreicht 98,0 % Genauigkeit bei 3 $/Mio. Anfragen gegenüber 378 $ für Claude Haiku.