Inferência de LLM de 1 Bit: BitNet da Microsoft para CPU e GPU

O que é o BitNet

O BitNet é a estrutura oficial de inferência da Microsoft para LLMs de 1 bit (como o BitNet b1.58). Ele fornece kernels otimizados para inferência rápida e sem perdas em CPU e GPU, com suporte a NPU planejado. A estrutura é construída sobre o llama.cpp e utiliza metodologias de Tabela de Consulta (Lookup Table) do T-MAC.

Benchmarks de desempenho

Em CPUs ARM: acelerações de 1,37x a 5,07x com redução de energia de 55,4% a 70,0%. Em CPUs x86: acelerações de 2,37x a 6,17x com redução de energia de 71,9% a 82,2%. A otimização mais recente adiciona implementações de kernel paralelo com divisão em blocos (tiling) configurável e suporte à quantização de embeddings, alcançando um acréscimo de aceleração de 1,15x a 2,1x em relação à implementação original.

O BitNet pode executar um modelo BitNet b1.58 de 100B em uma única CPU em velocidades comparáveis à leitura humana (5-7 tokens por segundo).

Modelos suportados

BitNet-b1.58-2B-4T (2,4B parâmetros) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
bitnet_b1_58-large (0,7B) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
bitnet_b1_58-3B (3,3B) - x86: ❌ I2_S, ❌ TL1, ✅ TL2 | ARM: ❌ I2_S, ✅ TL1, ❌ TL2
Llama3-8B-1.58-100B-tokens (8,0B) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
Falcon3 Family (1B-10B) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
Falcon-E Family (1B-3B) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2

Requisitos de instalação

Python≥3.9, CMake≥3.22, Clang≥18. Para Windows: Visual Studio 2022 com Desktop development with C++, C++-CMake Tools for Windows, Git for Windows, C++-Clang Compiler for Windows e MS-Build Support for LLVM-Toolset (clang). Para Debian/Ubuntu: Use o script de instalação automática: bash -c "$(wget -O - https://apt.llvm.org/llvm.sh)"

Compilar a partir do código-fonte

Clonar o repositório: git clone --recursive https://github.com/microsoft/BitNet.git

Mudar de diretório: cd BitNet

Instalar dependências: # (Recomendado) Criar um novo ambiente conda

Usuários do Windows devem usar um Prompt de Comando/PowerShell do Desenvolvedor para VS2022 para comandos de compilação.

Atualizações recentes

15/01/2026: Otimização de Inferência em CPU do BitNet
20/05/2025: Kernel oficial de inferência em GPU do BitNet
14/04/2025: Modelo oficial de 2B parâmetros do BitNet no Hugging Face
18/02/2025: Bitnet.cpp: Inferência Eficiente na Borda para LLMs Ternários
08/11/2024: BitNet a4.8: Ativações de 4 bits para LLMs de 1 bit
21/10/2024: Infraestrutura de IA de 1 bit: Parte 1.1, Inferência Rápida e sem Perdas do BitNet b1.58 em CPUs
17/10/2024: bitnet.cpp 1.0 lançado

📖 Read the full source: HN AI Agents