Microsoft BitNet позволяет выполнять вывод LLM с 100 миллиардами параметров на одном процессоре.

BitNet: 1-битная квантизация для вывода LLM на CPU
Проект Microsoft с открытым исходным кодом BitNet позволяет выполнять вывод больших языковых моделей на потребительском оборудовании без GPU. Ключевая инновация — 1,58-битная квантизация (вместо типичной 16-битной), что уменьшает размер модели в 10-20 раз при сохранении конкурентоспособной производительности.
Ключевые технические детали
- Репозиторий:
https://github.com/microsoft/BitNet - Модель:
bitnet-b1.58-2B-4Tдоступна на HuggingFace - Требования к оборудованию: 8-ядерный CPU, 32 ГБ ОЗУ, NVMe SSD
- Размер модели: 1,19 ГБ для загрузки 2B-параметрической версии
- Производительность: 100B-модель работает со скоростью 5-7 токенов в секунду на одном CPU (скорость чтения человеком)
- Ускорение: в 2,37-6,17 раз быстрее, чем llama.cpp на x86 CPU, ускорение в 1,37-5,07 раз на ARM (Mac)
Результаты тестирования
2B-параметрическая модель, обученная на 4 триллионах токенов, соответствует или превосходит аналогичные полноразрядные модели (Llama 3.2 1B, Gemma 3 1B, Qwen2.5 1.5B) в стандартных тестах на понимание, математику, программирование и чат.
- Использование памяти: 0,4 ГБ против 1,4-4,8 ГБ у сравнимых моделей
- Задержка на CPU: 29 мс против 41-124 мс у сравнимых моделей
- Энергоэффективность: ~в 10 раз меньшее потребление энергии
Варианты развертывания
В источнике предлагается несколько подходов к развертыванию:
bitnet.cppработает напрямую на CPU-оборудовании- WSL2 Ubuntu на Windows 11 для Node24 OpenClaw & bitnet.cpp
- USB-загрузочные Alpine RAMdisk системы с BitNet, OpenClaw, LiteLLM proxy и Open WebUI
- Обновленные мини-компьютеры HP 800 G3 (i7-6700, 32 ГБ ОЗУ, 1 ТБ NVMe) доступны за ~$334
Сценарии использования
- Периферийные приложения и робототехника
- Персональные RAG-настройки с интерфейсами в стиле чат-бота
- Системы памяти AI OS с интервалами скриншотов, поиском, сводками и временными шкалами
- Локальные стеки с Qwen 3.5 для пользователей GPU (квантизированная Llama-3-70B приближается к производительности ChatGPT 4 на RTX 4090)
Проект привлек недавнее внимание благодаря оптимизациям вывода на CPU в январе 2026 года и высоким ценам на GPU, что делает вывод на CPU более практичным для разработчиков с ограниченным оборудованием.
📖 Read the full source: r/openclaw
👀 Смотрите также

Янн ЛеКун привлек $1 млрд для разработки AI-мировых моделей через AMI, бросая вызов подходу на основе больших языковых моделей (LLM).
Стартап Янна Лекуна AMI привлёк более $1 млрд для разработки ИИ-моделей мира, понимающих физический мир, утверждая, что одних лишь больших языковых моделей недостаточно для достижения человеческого уровня интеллекта. Компания создаст системы с постоянной памятью, способностью к рассуждению и планированию для применения в производстве, биомедицине и робототехнике.

AWS Bedrock тихо убивает квоту Claude Opus 4.7: Предупреждение для производственных AI-процессов
Пользователь HN сообщает, что AWS Bedrock установил квоту на Claude Opus 4.7 на уровне 0 без предупреждения. AWS поддержка подтвердила, что это было обновление системы, и не может гарантировать восстановление. Пользователям рекомендуется перейти на Opus 4.6 или сменить провайдера.

Claude Code v2.1.139 добавляет Agent View, команду /goal и крупные улучшения MCP
Claude Code v2.1.139 представляет новый режим агента для управления сессиями, команду /goal для многозадачных задач, расширенные возможности хуков и исправления проблем с памятью MCP-сервера и повреждением терминала.

MTP Multi-Token Prediction: генерация токенов в 2 раза быстрее на AMD Strix Halo и Radeon 9700 AI Pro
Мультитокенное предсказание (MTP) обещает до 2-кратного ускорения генерации токенов для локальных LLM. Новое демо-видео показывает MTP на оборудовании AMD Strix Halo и Dual Radeon 9700 AI Pro, ориентированном на модели класса Qwen 3.6.