29,6x ускорение ЦП: FairyFuse тройные веса безумножительный вывод

FairyFuse — это система инференса для тернарных LLM (значения в {-1,0,+1}) на массовых CPU. Объединяя восемь вещественных суб-GEMV каждого широко-линейного слоя в один цикл AVX-512 с использованием маскированных сложений и вычитаний, она устраняет все операции умножения с плавающей точкой. Roofline-анализ показывает, что 16-кратное сжатие весов смещает memory-bound GEMV в сторону вычислительного режима на bandwidth-limited CPU, обеспечивая 29,6-кратное ускорение ядра по сравнению с традиционными ядрами деквантизации и умножения. Примечательно, что подход дает мало преимуществ на GPU.

Ключевые результаты

Сквозная пропускная способность: 32,4 токена в секунду на одном Intel Xeon 8558P.
Сравнение с llama.cpp Q4_K_M: в 1,24 раза быстрее с почти без потерь качеством (перплексия WikiText-2 5,52 против 5,47 для FP16; точность на downstream 66,0% против 66,0% FP16).
Сжатие весов: 16x (2 бита на вес) благодаря тернарному представлению — деквантизация в FP не требуется.
Техника: Объединение восьми суб-GEMV в один цикл AVX-512 с использованием маскированных сложений/вычитаний — полностью без умножений с плавающей точкой.

Контекст

Предыдущая работа (Fairy2i) показала, что тернарные LLM могут соответствовать качеству FP16, но время выполнения не использовало структуру. FairyFuse устраняет этот разрыв, перестраивая инференс так, чтобы он был без умножений на x86 CPU с AVX-512.

📖 Прочитайте полный источник: HN LLM Tools

FairyFuse достигает 29,6-кратного ускорения ядра на ЦП с помощью безумножительного вывода с тройными весами

Ключевые результаты

Контекст

👀 Смотрите также

Выпуск Claude Code v2.1.85: Улучшения MCP, фильтры хуков и исправления ошибок

Протокол Конвергенции Quumble v5: Результаты эксперимента с кросс-архитектурными LLM

"Искусственный интеллект" на вывеске: британские компании переименовываются в AI-компании, несмотря на слабые связи

Частые критические изменения в OpenClaw: Процедуры обновления и текущие проблемы