BitNet Framework : Inférence LLM 1-bit Jusqu'à 6.17x Plus Rapide

Qu'est-ce que BitNet

BitNet est le framework d'inférence officiel de Microsoft pour les LLM 1-bit (comme BitNet b1.58). Il fournit des noyaux optimisés pour une inférence rapide et sans perte sur CPU et GPU, avec un support NPU prévu. Le framework est construit sur llama.cpp et utilise les méthodologies de table de recherche de T-MAC.

Benchmarks de performance

Sur les CPU ARM : accélérations de 1,37x à 5,07x avec une réduction d'énergie de 55,4% à 70,0%. Sur les CPU x86 : accélérations de 2,37x à 6,17x avec une réduction d'énergie de 71,9% à 82,2%. La dernière optimisation ajoute des implémentations de noyaux parallèles avec un tuilage configurable et un support de quantification d'embedding, permettant une accélération supplémentaire de 1,15x à 2,1x par rapport à l'implémentation originale.

BitNet peut exécuter un modèle BitNet b1.58 de 100 milliards de paramètres sur un seul CPU à des vitesses comparables à la lecture humaine (5-7 tokens par seconde).

Modèles pris en charge

BitNet-b1.58-2B-4T (2,4 milliards de paramètres) - x86 : ✅ I2_S, ❌ TL1, ✅ TL2 | ARM : ✅ I2_S, ✅ TL1, ❌ TL2
bitnet_b1_58-large (0,7 milliard) - x86 : ✅ I2_S, ❌ TL1, ✅ TL2 | ARM : ✅ I2_S, ✅ TL1, ❌ TL2
bitnet_b1_58-3B (3,3 milliards) - x86 : ❌ I2_S, ❌ TL1, ✅ TL2 | ARM : ❌ I2_S, ✅ TL1, ❌ TL2
Llama3-8B-1.58-100B-tokens (8,0 milliards) - x86 : ✅ I2_S, ❌ TL1, ✅ TL2 | ARM : ✅ I2_S, ✅ TL1, ❌ TL2
Falcon3 Family (1-10 milliards) - x86 : ✅ I2_S, ❌ TL1, ✅ TL2 | ARM : ✅ I2_S, ✅ TL1, ❌ TL2
Falcon-E Family (1-3 milliards) - x86 : ✅ I2_S, ❌ TL1, ✅ TL2 | ARM : ✅ I2_S, ✅ TL1, ❌ TL2

Prérequis d'installation

Python≥3.9, CMake≥3.22, Clang≥18. Pour Windows : Visual Studio 2022 avec Développement Desktop avec C++, Outils C++-CMake pour Windows, Git pour Windows, Compilateur C++-Clang pour Windows, et Support MS-Build pour LLVM-Toolset (clang). Pour Debian/Ubuntu : Utilisez le script d'installation automatique : bash -c "$(wget -O - https://apt.llvm.org/llvm.sh)"

Compilation à partir des sources

Cloner le dépôt : git clone --recursive https://github.com/microsoft/BitNet.git

Changer de répertoire : cd BitNet

Installer les dépendances : # (Recommandé) Créer un nouvel environnement conda

Les utilisateurs Windows doivent utiliser un Developer Command Prompt/PowerShell pour VS2022 pour les commandes de compilation.

Mises à jour récentes

15/01/2026 : Optimisation de l'inférence CPU de BitNet
20/05/2025 : Noyau d'inférence GPU officiel de BitNet
14/04/2025 : Modèle officiel BitNet de 2 milliards de paramètres sur Hugging Face
18/02/2025 : Bitnet.cpp : Inférence Edge efficace pour les LLM ternaires
08/11/2024 : BitNet a4.8 : Activations 4-bit pour les LLM 1-bit
21/10/2024 : Infra IA 1-bit : Partie 1.1, Inférence rapide et sans perte de BitNet b1.58 sur CPU
17/10/2024 : bitnet.cpp 1.0 publié

📖 Read the full source: HN AI Agents