Microsoft BitNet: Marco de inferencia de LLM de 1 bit para CPU y GPU

Qué es BitNet
BitNet es el marco de inferencia oficial de Microsoft para LLMs de 1 bit (como BitNet b1.58). Proporciona núcleos optimizados para inferencia rápida y sin pérdidas en CPU y GPU, con soporte para NPU planeado. El marco está construido sobre llama.cpp y utiliza metodologías de Tabla de Búsqueda de T-MAC.
Evaluaciones comparativas de rendimiento
En CPUs ARM: aceleraciones de 1.37x a 5.07x con reducción de energía del 55.4% al 70.0%. En CPUs x86: aceleraciones de 2.37x a 6.17x con reducción de energía del 71.9% al 82.2%. La última optimización añade implementaciones de núcleos paralelos con teselado configurable y soporte de cuantización de incrustaciones, logrando una aceleración adicional de 1.15x a 2.1x sobre la implementación original.
BitNet puede ejecutar un modelo BitNet b1.58 de 100B en una sola CPU a velocidades comparables a la lectura humana (5-7 tokens por segundo).
Modelos compatibles
- BitNet-b1.58-2B-4T (2.4B parámetros) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
- bitnet_b1_58-large (0.7B) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
- bitnet_b1_58-3B (3.3B) - x86: ❌ I2_S, ❌ TL1, ✅ TL2 | ARM: ❌ I2_S, ✅ TL1, ❌ TL2
- Llama3-8B-1.58-100B-tokens (8.0B) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
- Falcon3 Family (1B-10B) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
- Falcon-E Family (1B-3B) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
Requisitos de instalación
Python≥3.9, CMake≥3.22, Clang≥18. Para Windows: Visual Studio 2022 con Desarrollo de escritorio con C++, Herramientas C++-CMake para Windows, Git para Windows, Compilador C++-Clang para Windows y Soporte MS-Build para LLVM-Toolset (clang). Para Debian/Ubuntu: Usa el script de instalación automática: bash -c "$(wget -O - https://apt.llvm.org/llvm.sh)"
Compilar desde el código fuente
Clona el repositorio: git clone --recursive https://github.com/microsoft/BitNet.git
Cambia de directorio: cd BitNet
Instala las dependencias: # (Recomendado) Crea un nuevo entorno conda
Los usuarios de Windows deben usar un Símbolo del sistema/PowerShell de desarrollador para VS2022 para los comandos de compilación.
Actualizaciones recientes
- 15/01/2026: Optimización de inferencia de CPU de BitNet
- 20/05/2025: Núcleo de inferencia oficial de GPU de BitNet
- 14/04/2025: Modelo oficial de 2B parámetros de BitNet en Hugging Face
- 18/02/2025: Bitnet.cpp: Inferencia eficiente en el borde para LLMs ternarios
- 08/11/2024: BitNet a4.8: Activaciones de 4 bits para LLMs de 1 bit
- 21/10/2024: Infraestructura de IA de 1 bit: Parte 1.1, Inferencia rápida y sin pérdidas de BitNet b1.58 en CPUs
- 17/10/2024: bitnet.cpp 1.0 lanzado
📖 Read the full source: HN AI Agents
👀 Ver también

Claude añade función de creación de gráficos y diagramas interactivos
Claude ahora puede generar visuales interactivos que incluyen gráficos, diagramas y desgloses explorables directamente dentro de las conversaciones. La función está disponible en versión beta en todos los planes, incluido el nivel gratuito.

Desarrollador crea plugin de WordPress MCP con capacidades de lectura/escritura y 28 funciones
Un desarrollador creó un plugin de WordPress que registra 28 habilidades MCP a través de la API de Habilidades de WordPress, permitiendo acceso completo de lectura/escritura para agentes de IA de programación. El plugin maneja la gestión de contenido, auditoría de calidad y funciones de seguridad, convirtiendo automáticamente entre Markdown y bloques de Gutenberg.

Automatiza las reuniones diarias en podcasts personales de Spotify con OpenClaw y la CLI de Save to Spotify
OpenClaw se ejecuta diariamente a las 7 a.m., extrae hilos de Slack + notificaciones de GitHub + calendario, los resume en mp3 y los sube como un episodio privado mediante la CLI Save to Spotify. Funciona en Free y Premium.

IronBee: Capa de verificación de código abierto para Claude Code y Cursor
IronBee es una capa de verificación de código abierto que obliga a los agentes de codificación con IA a probar los cambios en un navegador real antes de completar las tareas. En las pruebas, detectó errores en el 82% de las sesiones de Claude Code que se habrían enviado sin verificación.