Microsoft BitNet позволяет выполнять вывод LLM с 100 миллиардами параметров на одном процессоре.

BitNet: 1-битная квантизация для вывода LLM на CPU

Проект Microsoft с открытым исходным кодом BitNet позволяет выполнять вывод больших языковых моделей на потребительском оборудовании без GPU. Ключевая инновация — 1,58-битная квантизация (вместо типичной 16-битной), что уменьшает размер модели в 10-20 раз при сохранении конкурентоспособной производительности.

Ключевые технические детали

Репозиторий: https://github.com/microsoft/BitNet
Модель: bitnet-b1.58-2B-4T доступна на HuggingFace
Требования к оборудованию: 8-ядерный CPU, 32 ГБ ОЗУ, NVMe SSD
Размер модели: 1,19 ГБ для загрузки 2B-параметрической версии
Производительность: 100B-модель работает со скоростью 5-7 токенов в секунду на одном CPU (скорость чтения человеком)
Ускорение: в 2,37-6,17 раз быстрее, чем llama.cpp на x86 CPU, ускорение в 1,37-5,07 раз на ARM (Mac)

Результаты тестирования

2B-параметрическая модель, обученная на 4 триллионах токенов, соответствует или превосходит аналогичные полноразрядные модели (Llama 3.2 1B, Gemma 3 1B, Qwen2.5 1.5B) в стандартных тестах на понимание, математику, программирование и чат.

Использование памяти: 0,4 ГБ против 1,4-4,8 ГБ у сравнимых моделей
Задержка на CPU: 29 мс против 41-124 мс у сравнимых моделей
Энергоэффективность: ~в 10 раз меньшее потребление энергии

Варианты развертывания

В источнике предлагается несколько подходов к развертыванию:

bitnet.cpp работает напрямую на CPU-оборудовании
WSL2 Ubuntu на Windows 11 для Node24 OpenClaw & bitnet.cpp
USB-загрузочные Alpine RAMdisk системы с BitNet, OpenClaw, LiteLLM proxy и Open WebUI
Обновленные мини-компьютеры HP 800 G3 (i7-6700, 32 ГБ ОЗУ, 1 ТБ NVMe) доступны за ~$334

Сценарии использования

Периферийные приложения и робототехника
Персональные RAG-настройки с интерфейсами в стиле чат-бота
Системы памяти AI OS с интервалами скриншотов, поиском, сводками и временными шкалами
Локальные стеки с Qwen 3.5 для пользователей GPU (квантизированная Llama-3-70B приближается к производительности ChatGPT 4 на RTX 4090)

Проект привлек недавнее внимание благодаря оптимизациям вывода на CPU в январе 2026 года и высоким ценам на GPU, что делает вывод на CPU более практичным для разработчиков с ограниченным оборудованием.

📖 Read the full source: r/openclaw

Microsoft BitNet позволяет выполнять вывод LLM с 100 миллиардами параметров на одном процессоре.

BitNet: 1-битная квантизация для вывода LLM на CPU

Ключевые технические детали

Результаты тестирования

Варианты развертывания

Сценарии использования

👀 Смотрите также

Обновление OpenClaw .23 вызывает проблемы с агентом и потерю данных

Claude Code v2.1.140 Исправления соответствия инструментам агента, зависания /goal, зависания цикла событий Windows

Бенчмарк усилий рассуждения Opus 4.7: Средний превосходит Высокий и Максимум в реальных задачах

Платформа Claude на AWS теперь общедоступна: нативный опыт Anthropic через IAM, CloudTrail и AWS Billing