Microsoft BitNet: framework de inferência de LLM de 1 bit para CPU e GPU

O que é o BitNet
O BitNet é a estrutura oficial de inferência da Microsoft para LLMs de 1 bit (como o BitNet b1.58). Ele fornece kernels otimizados para inferência rápida e sem perdas em CPU e GPU, com suporte a NPU planejado. A estrutura é construída sobre o llama.cpp e utiliza metodologias de Tabela de Consulta (Lookup Table) do T-MAC.
Benchmarks de desempenho
Em CPUs ARM: acelerações de 1,37x a 5,07x com redução de energia de 55,4% a 70,0%. Em CPUs x86: acelerações de 2,37x a 6,17x com redução de energia de 71,9% a 82,2%. A otimização mais recente adiciona implementações de kernel paralelo com divisão em blocos (tiling) configurável e suporte à quantização de embeddings, alcançando um acréscimo de aceleração de 1,15x a 2,1x em relação à implementação original.
O BitNet pode executar um modelo BitNet b1.58 de 100B em uma única CPU em velocidades comparáveis à leitura humana (5-7 tokens por segundo).
Modelos suportados
- BitNet-b1.58-2B-4T (2,4B parâmetros) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
- bitnet_b1_58-large (0,7B) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
- bitnet_b1_58-3B (3,3B) - x86: ❌ I2_S, ❌ TL1, ✅ TL2 | ARM: ❌ I2_S, ✅ TL1, ❌ TL2
- Llama3-8B-1.58-100B-tokens (8,0B) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
- Falcon3 Family (1B-10B) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
- Falcon-E Family (1B-3B) - x86: ✅ I2_S, ❌ TL1, ✅ TL2 | ARM: ✅ I2_S, ✅ TL1, ❌ TL2
Requisitos de instalação
Python≥3.9, CMake≥3.22, Clang≥18. Para Windows: Visual Studio 2022 com Desktop development with C++, C++-CMake Tools for Windows, Git for Windows, C++-Clang Compiler for Windows e MS-Build Support for LLVM-Toolset (clang). Para Debian/Ubuntu: Use o script de instalação automática: bash -c "$(wget -O - https://apt.llvm.org/llvm.sh)"
Compilar a partir do código-fonte
Clonar o repositório: git clone --recursive https://github.com/microsoft/BitNet.git
Mudar de diretório: cd BitNet
Instalar dependências: # (Recomendado) Criar um novo ambiente conda
Usuários do Windows devem usar um Prompt de Comando/PowerShell do Desenvolvedor para VS2022 para comandos de compilação.
Atualizações recentes
- 15/01/2026: Otimização de Inferência em CPU do BitNet
- 20/05/2025: Kernel oficial de inferência em GPU do BitNet
- 14/04/2025: Modelo oficial de 2B parâmetros do BitNet no Hugging Face
- 18/02/2025: Bitnet.cpp: Inferência Eficiente na Borda para LLMs Ternários
- 08/11/2024: BitNet a4.8: Ativações de 4 bits para LLMs de 1 bit
- 21/10/2024: Infraestrutura de IA de 1 bit: Parte 1.1, Inferência Rápida e sem Perdas do BitNet b1.58 em CPUs
- 17/10/2024: bitnet.cpp 1.0 lançado
📖 Read the full source: HN AI Agents
👀 See Also

Usando /probe para detectar alucinações de IA antes de escrever código
Um desenvolvedor compartilha uma técnica chamada /probe que força planos gerados por IA a fazer afirmações numeradas com valores esperados, então sonda o sistema real para detectar discrepâncias. O método capturou quatro erros factuais na descrição do próprio formato JSONL do Claude que teriam causado bugs no código.

Habilidade OpenClaw Reduz Transferência de Agente ao Permitir Automação
Uma nova habilidade para agentes OpenClaw aborda o problema comum em que os agentes identificam o próximo passo, mas param em 'aqui está o que fazer a seguir', exigindo uma transferência para um humano. A habilidade permite que os agentes executem certas ações por conta própria, como registrar, postar, responder e assinar.

SmallClaw v1.0.2 adiciona sistema de tarefas em segundo plano para LLMs locais
SmallClaw v1.0.2 apresenta um mecanismo de tarefas em segundo plano que executa fluxos de trabalho de múltiplas etapas de forma autônoma, com verificação de etapas para resolver problemas de confiabilidade de modelos pequenos. A atualização foi testada em modelos da classe 4B como qwen3:4b em máquinas com 8GB de RAM.

O plugin OpenClaw adiciona memória persistente com o servidor Engram.
Um desenvolvedor criou um plugin em TypeScript que conecta agentes OpenClaw ao Engram, um servidor de memória leve baseado em Go que armazena observações estruturadas em SQLite com busca de texto completo FTS5. O plugin fornece 11 ferramentas, 4 ganchos de ciclo de vida e uma recuperação automática que injeta memórias relevantes nos prompts antes de cada turno do agente.