FairyFuse erreicht 29,6-fache Kernel-Beschleunigung auf CPUs durch ternäre gewichtsfreie Inferenz

✍️ OpenClawRadar📅 Veröffentlicht: 13. Mai 2026🔗 Source

FairyFuse ist ein Inferenzsystem für ternäre (Werte in {-1,0,+1}) LLMs auf handelsüblichen CPUs. Durch die Verschmelzung der acht reellwertigen Sub-GEMVs jeder breit-linearer Schicht zu einer einzigen AVX-512-Schleife mittels maskierter Additionen und Subtraktionen werden alle Gleitkomma-Multiplikationen eliminiert. Eine Roofline-Analyse zeigt, dass die 16-fache Gewichtskomprimierung den speichergebundenen GEMV auf bandbreitenbegrenzten CPUs in Richtung des Rechenregimes verschiebt, was einen 29,6-fachen Kernel-Beschleunigungsfaktor gegenüber herkömmlichen Dequantisierungs-und-Multiplikations-Kernels ergibt. Bemerkenswerterweise bietet der Ansatz auf GPUs kaum Vorteile.

Wichtigste Ergebnisse

End-to-End-Durchsatz: 32,4 Tokens pro Sekunde auf einem einzelnen Intel Xeon 8558P.
Vergleich mit llama.cpp Q4_K_M: 1,24-mal schneller bei nahezu verlustfreier Qualität (WikiText-2 Perplexität 5,52 gegenüber 5,47 für FP16; nachgelagerte Genauigkeit 66,0 % gegenüber 66,0 % FP16).
Gewichtskomprimierung: 16-fach (2 Bit pro Gewicht) aufgrund der ternären Darstellung – keine Dequantisierung zu FP erforderlich.
Technik: Verschmilzt acht Sub-GEMVs zu einer einzigen AVX-512-Schleife mittels maskierter Additionen/Subtraktionen – überhaupt keine Gleitkomma-Multiplikationen.

Kontext

Vorherige Arbeiten (Fairy2i) zeigten, dass ternäre LLMs die FP16-Qualität erreichen können, aber die Laufzeit nutzte die Struktur nicht aus. FairyFuse schließt diese Lücke, indem es die Inferenz auf x86-CPUs mit AVX-512 multiplikationsfrei neu gestaltet.

📖 Lesen Sie die vollständige Quelle: HN LLM Tools

👀 Siehe auch

Nachrichten

PS3-Emulator-Entwickler bitten Entwickler, keine KI-generierten PRs mehr einzureichen

RPCS3-Betreuer haben öffentlich darum gebeten, dass Nutzer aufhören, Pull-Requests einzureichen, die von KI-Code-Agenten erstellt wurden, und begründen dies mit geringer Qualität und hohem Wartungsaufwand.

11. Mai 2026, 02:17 UTC

OpenClawRadar

Nachrichten

Terry Tao über AI-Beweisprüfer: Lean, Zusammenarbeit und formale Mathematik

Terry Tao prognostiziert, dass Mathematiker zu Hunderten zusammenarbeiten und ihre Beweise von Computern wie Lean überprüfen lassen, nicht von Menschen. Dieser Auszug aus Quanta Magazine erkundet diese Vision.

9. Juni 2026, 12:17 UTC

OpenClawRadar

Nachrichten

Die verborgene Finanzblase in der KI-Infrastruktur – Kernaussagen

Eine kritische Analyse des Booms bei den Investitionen in KI-Infrastruktur, die vor einer nicht nachhaltigen Blase ähnlich wie bei früheren Technologiecrashs warnt. Das PDF argumentiert, dass die massiven Kapitalausgaben für GPUs und Rechenzentren die tatsächliche Umsatzgenerierung bei weitem übersteigen.

4. Mai 2026, 06:15 UTC

OpenClawRadar

Nachrichten

Token-Effizienz als Akt der Verweigerung: Warum KI-Unternehmen Verschwendung wollen

LLM-Anbieter profitieren von Abhängigkeit. Tokeneffizienz ist ein Akt der Verweigerung. Erzeuge nichts, was du nicht lesen wirst.

17. Juni 2026, 12:20 UTC

OpenClawRadar