BitNet 1-bit LLM: Inferencia 1.37x-6.17x más rápida en CPU

Qué es BitNet

BitNet es el marco de inferencia oficial de Microsoft para LLMs de 1 bit (como BitNet b1.58). Proporciona núcleos optimizados para inferencia rápida y sin pérdidas en CPU y GPU, con soporte para NPU planeado. El marco está construido sobre llama.cpp y utiliza metodologías de Tabla de Búsqueda de T-MAC.

Evaluaciones comparativas de rendimiento

En CPUs ARM: aceleraciones de 1.37x a 5.07x con reducción de energía del 55.4% al 70.0%. En CPUs x86: aceleraciones de 2.37x a 6.17x con reducción de energía del 71.9% al 82.2%. La última optimización añade implementaciones de núcleos paralelos con teselado configurable y soporte de cuantización de incrustaciones, logrando una aceleración adicional de 1.15x a 2.1x sobre la implementación original.

BitNet puede ejecutar un modelo BitNet b1.58 de 100B en una sola CPU a velocidades comparables a la lectura humana (5-7 tokens por segundo).

Modelos compatibles

BitNet-b1.58-2B-4T (2.4B parámetros) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
bitnet_b1_58-large (0.7B) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
bitnet_b1_58-3B (3.3B) - x86: ❌ I2_S, ❌ TL1, ✅ TL2 | ARM: ❌ I2_S, ✅ TL1, ❌ TL2
Llama3-8B-1.58-100B-tokens (8.0B) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
Falcon3 Family (1B-10B) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
Falcon-E Family (1B-3B) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2

Requisitos de instalación

Python≥3.9, CMake≥3.22, Clang≥18. Para Windows: Visual Studio 2022 con Desarrollo de escritorio con C++, Herramientas C++-CMake para Windows, Git para Windows, Compilador C++-Clang para Windows y Soporte MS-Build para LLVM-Toolset (clang). Para Debian/Ubuntu: Usa el script de instalación automática: bash -c "$(wget -O - https://apt.llvm.org/llvm.sh)"

Compilar desde el código fuente

Clona el repositorio: git clone --recursive https://github.com/microsoft/BitNet.git

Cambia de directorio: cd BitNet

Instala las dependencias: # (Recomendado) Crea un nuevo entorno conda

Los usuarios de Windows deben usar un Símbolo del sistema/PowerShell de desarrollador para VS2022 para los comandos de compilación.

Actualizaciones recientes

15/01/2026: Optimización de inferencia de CPU de BitNet
20/05/2025: Núcleo de inferencia oficial de GPU de BitNet
14/04/2025: Modelo oficial de 2B parámetros de BitNet en Hugging Face
18/02/2025: Bitnet.cpp: Inferencia eficiente en el borde para LLMs ternarios
08/11/2024: BitNet a4.8: Activaciones de 4 bits para LLMs de 1 bit
21/10/2024: Infraestructura de IA de 1 bit: Parte 1.1, Inferencia rápida y sin pérdidas de BitNet b1.58 en CPUs
17/10/2024: bitnet.cpp 1.0 lanzado

📖 Read the full source: HN AI Agents