FairyFuse достигает 29,6-кратного ускорения ядра на ЦП с помощью безумножительного вывода с тройными весами

✍️ OpenClawRadar📅 Опубликовано: 13 мая 2026 г.🔗 Source
Ad

FairyFuse — это система инференса для тернарных LLM (значения в {-1,0,+1}) на массовых CPU. Объединяя восемь вещественных суб-GEMV каждого широко-линейного слоя в один цикл AVX-512 с использованием маскированных сложений и вычитаний, она устраняет все операции умножения с плавающей точкой. Roofline-анализ показывает, что 16-кратное сжатие весов смещает memory-bound GEMV в сторону вычислительного режима на bandwidth-limited CPU, обеспечивая 29,6-кратное ускорение ядра по сравнению с традиционными ядрами деквантизации и умножения. Примечательно, что подход дает мало преимуществ на GPU.

Ad

Ключевые результаты

  • Сквозная пропускная способность: 32,4 токена в секунду на одном Intel Xeon 8558P.
  • Сравнение с llama.cpp Q4_K_M: в 1,24 раза быстрее с почти без потерь качеством (перплексия WikiText-2 5,52 против 5,47 для FP16; точность на downstream 66,0% против 66,0% FP16).
  • Сжатие весов: 16x (2 бита на вес) благодаря тернарному представлению — деквантизация в FP не требуется.
  • Техника: Объединение восьми суб-GEMV в один цикл AVX-512 с использованием маскированных сложений/вычитаний — полностью без умножений с плавающей точкой.

Контекст

Предыдущая работа (Fairy2i) показала, что тернарные LLM могут соответствовать качеству FP16, но время выполнения не использовало структуру. FairyFuse устраняет этот разрыв, перестраивая инференс так, чтобы он был без умножений на x86 CPU с AVX-512.

📖 Прочитайте полный источник: HN LLM Tools

Ad

👀 Смотрите также

Anthropic платит SpaceX $15 млрд в год за вычислительные мощности до 2029 года
Новости

Anthropic платит SpaceX $15 млрд в год за вычислительные мощности до 2029 года

Документы SpaceX для IPO раскрывают, что Anthropic платит $1.25 млрд в месяц до мая 2029 года за вычислительные мощности. Сделка обеспечивает обучение ИИ на объектах Colossus 1 и 2.

OpenClawRadar
Пользователь Reddit сравнивает Claude Sonnet 4.6 и GPT-5 по 10 задачам для ведения блога.
Новости

Пользователь Reddit сравнивает Claude Sonnet 4.6 и GPT-5 по 10 задачам для ведения блога.

Пользователь Reddit протестировал Claude Sonnet 4.6 против GPT-5, используя одинаковые промпты для 10 типичных задач ведения блога, и обнаружил, что разница во времени редактирования оказалась наиболее полезным показателем.

OpenClawRadar
Данные об использовании подписки Claude Max на 100 долларов для задачи расширения API
Новости

Данные об использовании подписки Claude Max на 100 долларов для задачи расширения API

Пользователь подписки Claude Max за $100 сообщает, что потратил 13% от 5-часовой сессии на расширение существующего API функциональностью избранных библиотек, при этом использование контекста составило 11%, а недельное использование увеличилось с 5% до 6%.

OpenClawRadar
Платформа Claude на AWS теперь общедоступна: нативный опыт Anthropic через IAM, CloudTrail и AWS Billing
Новости

Платформа Claude на AWS теперь общедоступна: нативный опыт Anthropic через IAM, CloudTrail и AWS Billing

AWS объявила о GA платформы Claude на AWS, предоставляя разработчикам прямой доступ к нативному опыту Anthropic Claude через существующие аккаунты AWS с аутентификацией IAM, биллингом AWS и логированием CloudTrail — но пользовательские данные обрабатываются за пределами границ безопасности AWS.

OpenClawRadar