Microsoft BitNet позволяет выполнять вывод LLM с 100 миллиардами параметров на одном процессоре.

✍️ OpenClawRadar📅 Опубликовано: 13 марта 2026 г.🔗 Source
Microsoft BitNet позволяет выполнять вывод LLM с 100 миллиардами параметров на одном процессоре.
Ad

BitNet: 1-битная квантизация для вывода LLM на CPU

Проект Microsoft с открытым исходным кодом BitNet позволяет выполнять вывод больших языковых моделей на потребительском оборудовании без GPU. Ключевая инновация — 1,58-битная квантизация (вместо типичной 16-битной), что уменьшает размер модели в 10-20 раз при сохранении конкурентоспособной производительности.

Ключевые технические детали

  • Репозиторий: https://github.com/microsoft/BitNet
  • Модель: bitnet-b1.58-2B-4T доступна на HuggingFace
  • Требования к оборудованию: 8-ядерный CPU, 32 ГБ ОЗУ, NVMe SSD
  • Размер модели: 1,19 ГБ для загрузки 2B-параметрической версии
  • Производительность: 100B-модель работает со скоростью 5-7 токенов в секунду на одном CPU (скорость чтения человеком)
  • Ускорение: в 2,37-6,17 раз быстрее, чем llama.cpp на x86 CPU, ускорение в 1,37-5,07 раз на ARM (Mac)

Результаты тестирования

2B-параметрическая модель, обученная на 4 триллионах токенов, соответствует или превосходит аналогичные полноразрядные модели (Llama 3.2 1B, Gemma 3 1B, Qwen2.5 1.5B) в стандартных тестах на понимание, математику, программирование и чат.

  • Использование памяти: 0,4 ГБ против 1,4-4,8 ГБ у сравнимых моделей
  • Задержка на CPU: 29 мс против 41-124 мс у сравнимых моделей
  • Энергоэффективность: ~в 10 раз меньшее потребление энергии
Ad

Варианты развертывания

В источнике предлагается несколько подходов к развертыванию:

  • bitnet.cpp работает напрямую на CPU-оборудовании
  • WSL2 Ubuntu на Windows 11 для Node24 OpenClaw & bitnet.cpp
  • USB-загрузочные Alpine RAMdisk системы с BitNet, OpenClaw, LiteLLM proxy и Open WebUI
  • Обновленные мини-компьютеры HP 800 G3 (i7-6700, 32 ГБ ОЗУ, 1 ТБ NVMe) доступны за ~$334

Сценарии использования

  • Периферийные приложения и робототехника
  • Персональные RAG-настройки с интерфейсами в стиле чат-бота
  • Системы памяти AI OS с интервалами скриншотов, поиском, сводками и временными шкалами
  • Локальные стеки с Qwen 3.5 для пользователей GPU (квантизированная Llama-3-70B приближается к производительности ChatGPT 4 на RTX 4090)

Проект привлек недавнее внимание благодаря оптимизациям вывода на CPU в январе 2026 года и высоким ценам на GPU, что делает вывод на CPU более практичным для разработчиков с ограниченным оборудованием.

📖 Read the full source: r/openclaw

Ad

👀 Смотрите также

Янн ЛеКун привлек $1 млрд для разработки AI-мировых моделей через AMI, бросая вызов подходу на основе больших языковых моделей (LLM).
Новости

Янн ЛеКун привлек $1 млрд для разработки AI-мировых моделей через AMI, бросая вызов подходу на основе больших языковых моделей (LLM).

Стартап Янна Лекуна AMI привлёк более $1 млрд для разработки ИИ-моделей мира, понимающих физический мир, утверждая, что одних лишь больших языковых моделей недостаточно для достижения человеческого уровня интеллекта. Компания создаст системы с постоянной памятью, способностью к рассуждению и планированию для применения в производстве, биомедицине и робототехнике.

OpenClawRadar
AWS Bedrock тихо убивает квоту Claude Opus 4.7: Предупреждение для производственных AI-процессов
Новости

AWS Bedrock тихо убивает квоту Claude Opus 4.7: Предупреждение для производственных AI-процессов

Пользователь HN сообщает, что AWS Bedrock установил квоту на Claude Opus 4.7 на уровне 0 без предупреждения. AWS поддержка подтвердила, что это было обновление системы, и не может гарантировать восстановление. Пользователям рекомендуется перейти на Opus 4.6 или сменить провайдера.

OpenClawRadar
Claude Code v2.1.139 добавляет Agent View, команду /goal и крупные улучшения MCP
Новости

Claude Code v2.1.139 добавляет Agent View, команду /goal и крупные улучшения MCP

Claude Code v2.1.139 представляет новый режим агента для управления сессиями, команду /goal для многозадачных задач, расширенные возможности хуков и исправления проблем с памятью MCP-сервера и повреждением терминала.

OpenClawRadar
MTP Multi-Token Prediction: генерация токенов в 2 раза быстрее на AMD Strix Halo и Radeon 9700 AI Pro
Новости

MTP Multi-Token Prediction: генерация токенов в 2 раза быстрее на AMD Strix Halo и Radeon 9700 AI Pro

Мультитокенное предсказание (MTP) обещает до 2-кратного ускорения генерации токенов для локальных LLM. Новое демо-видео показывает MTP на оборудовании AMD Strix Halo и Dual Radeon 9700 AI Pro, ориентированном на модели класса Qwen 3.6.

OpenClawRadar