Microsoft BitNet: 1-битная инфраструктура вывода LLM для CPU и GPU

Что такое BitNet
BitNet — это официальный фреймворк Microsoft для вывода 1-битных больших языковых моделей (таких как BitNet b1.58). Он предоставляет оптимизированные ядра для быстрого и без потерь вывода на CPU и GPU, с запланированной поддержкой NPU. Фреймворк построен на llama.cpp и использует методологии Lookup Table из T-MAC.
Тесты производительности
На ARM CPU: ускорение от 1,37x до 5,07x со снижением энергопотребления на 55,4% до 70,0%. На x86 CPU: ускорение от 2,37x до 6,17x со снижением энергопотребления на 71,9% до 82,2%. Последняя оптимизация добавляет параллельные реализации ядер с настраиваемым тайлингом и поддержкой квантования эмбеддингов, обеспечивая дополнительное ускорение от 1,15x до 2,1x по сравнению с исходной реализацией.
BitNet может запускать 100-миллиардную модель BitNet b1.58 на одном CPU со скоростью, сравнимой с человеческим чтением (5-7 токенов в секунду).
Поддерживаемые модели
- BitNet-b1.58-2B-4T (2,4 млрд параметров) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
- bitnet_b1_58-large (0,7 млрд) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
- bitnet_b1_58-3B (3,3 млрд) - x86: ❌ I2_S, ❌ TL1, ✅ TL2 | ARM: ❌ I2_S, ✅ TL1, ❌ TL2
- Llama3-8B-1.58-100B-tokens (8,0 млрд) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
- Falcon3 Family (1-10 млрд) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
- Falcon-E Family (1-3 млрд) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
Требования к установке
Python≥3.9, CMake≥3.22, Clang≥18. Для Windows: Visual Studio 2022 с Desktop development with C++, C++-CMake Tools for Windows, Git for Windows, C++-Clang Compiler for Windows и MS-Build Support for LLVM-Toolset (clang). Для Debian/Ubuntu: используйте автоматический скрипт установки: bash -c "$(wget -O - https://apt.llvm.org/llvm.sh)"
Сборка из исходников
Клонируйте репозиторий: git clone --recursive https://github.com/microsoft/BitNet.git
Перейдите в директорию: cd BitNet
Установите зависимости: # (Рекомендуется) Создайте новое окружение conda
Пользователи Windows должны использовать Developer Command Prompt/PowerShell для VS2022 для команд сборки.
Последние обновления
- 15.01.2026: Оптимизация вывода BitNet на CPU
- 20.05.2025: Официальное ядро вывода BitNet для GPU
- 14.04.2025: Официальная модель BitNet с 2 млрд параметров на Hugging Face
- 18.02.2025: Bitnet.cpp: Эффективный вывод на периферийных устройствах для тернарных LLM
- 08.11.2024: BitNet a4.8: 4-битные активации для 1-битных LLM
- 21.10.2024: 1-битная AI инфраструктура: Часть 1.1, Быстрый и без потерь вывод BitNet b1.58 на CPU
- 17.10.2024: Выпуск bitnet.cpp 1.0
📖 Прочитать полный источник: HN AI Agents
👀 Смотрите также

OpenClaw Smart Router с открытым исходным кодом для автоматического выбора моделей
Разработчик опубликовал в открытом доступе Smart Router для OpenClaw, который автоматически классифицирует запросы по сложности и направляет их к оптимальным моделям, экономя 60-80% затрат на API по сравнению с постоянным использованием премиальных моделей, таких как Claude или GPT-4o.

Ouroboros 0.26.0-beta объединяет Claude и Codex через сервер MCP.
Ouroboros 0.26.0-beta представляет собой инструмент, который запускает Claude и Codex одновременно, назначая Claude задачу по уточнению намерений пользователя, а Codex — выполнение четко определенных задач через архитектуру MCP-сервера.

Пользователи OpenClaw сообщают о проблемах с планированием и проверкой при использовании ИИ-агентов.
Пользователи OpenClaw описывают процессы планирования и проверки как 'похожие на MS-DOS', несмотря на эффективную генерацию кода, ссылаясь на необходимость ручного вмешательства, фрагментацию документов и потерю логики при совместной работе агентов. Некоторые экспериментируют с редакторами документов, созданными специально для агентов, такими как comment.io и Proof by Every.

Переосмыслить команду слэша для Claude Code применяет метод когнитивной науки для решения проблем
Разработчик создал команду /reframe для Claude Code, реализующую когнитивную технику под названием «осцилляция дистанции и вовлечённости». Метод был протестирован на трёх открытых LLM с 50 задачами и стабильно превосходил другие подходы.