FairyFuse достигает 29,6-кратного ускорения ядра на ЦП с помощью безумножительного вывода с тройными весами
FairyFuse — это система инференса для тернарных LLM (значения в {-1,0,+1}) на массовых CPU. Объединяя восемь вещественных суб-GEMV каждого широко-линейного слоя в один цикл AVX-512 с использованием маскированных сложений и вычитаний, она устраняет все операции умножения с плавающей точкой. Roofline-анализ показывает, что 16-кратное сжатие весов смещает memory-bound GEMV в сторону вычислительного режима на bandwidth-limited CPU, обеспечивая 29,6-кратное ускорение ядра по сравнению с традиционными ядрами деквантизации и умножения. Примечательно, что подход дает мало преимуществ на GPU.
Ключевые результаты
- Сквозная пропускная способность: 32,4 токена в секунду на одном Intel Xeon 8558P.
- Сравнение с llama.cpp Q4_K_M: в 1,24 раза быстрее с почти без потерь качеством (перплексия WikiText-2 5,52 против 5,47 для FP16; точность на downstream 66,0% против 66,0% FP16).
- Сжатие весов: 16x (2 бита на вес) благодаря тернарному представлению — деквантизация в FP не требуется.
- Техника: Объединение восьми суб-GEMV в один цикл AVX-512 с использованием маскированных сложений/вычитаний — полностью без умножений с плавающей точкой.
Контекст
Предыдущая работа (Fairy2i) показала, что тернарные LLM могут соответствовать качеству FP16, но время выполнения не использовало структуру. FairyFuse устраняет этот разрыв, перестраивая инференс так, чтобы он был без умножений на x86 CPU с AVX-512.
📖 Прочитайте полный источник: HN LLM Tools
👀 Смотрите также

Anthropic платит SpaceX $15 млрд в год за вычислительные мощности до 2029 года
Документы SpaceX для IPO раскрывают, что Anthropic платит $1.25 млрд в месяц до мая 2029 года за вычислительные мощности. Сделка обеспечивает обучение ИИ на объектах Colossus 1 и 2.

Пользователь Reddit сравнивает Claude Sonnet 4.6 и GPT-5 по 10 задачам для ведения блога.
Пользователь Reddit протестировал Claude Sonnet 4.6 против GPT-5, используя одинаковые промпты для 10 типичных задач ведения блога, и обнаружил, что разница во времени редактирования оказалась наиболее полезным показателем.

Данные об использовании подписки Claude Max на 100 долларов для задачи расширения API
Пользователь подписки Claude Max за $100 сообщает, что потратил 13% от 5-часовой сессии на расширение существующего API функциональностью избранных библиотек, при этом использование контекста составило 11%, а недельное использование увеличилось с 5% до 6%.

Платформа Claude на AWS теперь общедоступна: нативный опыт Anthropic через IAM, CloudTrail и AWS Billing
AWS объявила о GA платформы Claude на AWS, предоставляя разработчикам прямой доступ к нативному опыту Anthropic Claude через существующие аккаунты AWS с аутентификацией IAM, биллингом AWS и логированием CloudTrail — но пользовательские данные обрабатываются за пределами границ безопасности AWS.