Microsoft BitNet : un framework d'inférence LLM 1-bit pour CPU et GPU

✍️ OpenClawRadar📅 Publié: March 11, 2026🔗 Source
Microsoft BitNet : un framework d'inférence LLM 1-bit pour CPU et GPU
Ad

Qu'est-ce que BitNet

BitNet est le framework d'inférence officiel de Microsoft pour les LLM 1-bit (comme BitNet b1.58). Il fournit des noyaux optimisés pour une inférence rapide et sans perte sur CPU et GPU, avec un support NPU prévu. Le framework est construit sur llama.cpp et utilise les méthodologies de table de recherche de T-MAC.

Benchmarks de performance

Sur les CPU ARM : accélérations de 1,37x à 5,07x avec une réduction d'énergie de 55,4% à 70,0%. Sur les CPU x86 : accélérations de 2,37x à 6,17x avec une réduction d'énergie de 71,9% à 82,2%. La dernière optimisation ajoute des implémentations de noyaux parallèles avec un tuilage configurable et un support de quantification d'embedding, permettant une accélération supplémentaire de 1,15x à 2,1x par rapport à l'implémentation originale.

BitNet peut exécuter un modèle BitNet b1.58 de 100 milliards de paramètres sur un seul CPU à des vitesses comparables à la lecture humaine (5-7 tokens par seconde).

Modèles pris en charge

  • BitNet-b1.58-2B-4T (2,4 milliards de paramètres) - x86 : ✅ I2_S, ❌ TL1, ✅ TL2 | ARM : ✅ I2_S, ✅ TL1, ❌ TL2
  • bitnet_b1_58-large (0,7 milliard) - x86 : ✅ I2_S, ❌ TL1, ✅ TL2 | ARM : ✅ I2_S, ✅ TL1, ❌ TL2
  • bitnet_b1_58-3B (3,3 milliards) - x86 : ❌ I2_S, ❌ TL1, ✅ TL2 | ARM : ❌ I2_S, ✅ TL1, ❌ TL2
  • Llama3-8B-1.58-100B-tokens (8,0 milliards) - x86 : ✅ I2_S, ❌ TL1, ✅ TL2 | ARM : ✅ I2_S, ✅ TL1, ❌ TL2
  • Falcon3 Family (1-10 milliards) - x86 : ✅ I2_S, ❌ TL1, ✅ TL2 | ARM : ✅ I2_S, ✅ TL1, ❌ TL2
  • Falcon-E Family (1-3 milliards) - x86 : ✅ I2_S, ❌ TL1, ✅ TL2 | ARM : ✅ I2_S, ✅ TL1, ❌ TL2
Ad

Prérequis d'installation

Python≥3.9, CMake≥3.22, Clang≥18. Pour Windows : Visual Studio 2022 avec Développement Desktop avec C++, Outils C++-CMake pour Windows, Git pour Windows, Compilateur C++-Clang pour Windows, et Support MS-Build pour LLVM-Toolset (clang). Pour Debian/Ubuntu : Utilisez le script d'installation automatique : bash -c "$(wget -O - https://apt.llvm.org/llvm.sh)"

Compilation à partir des sources

Cloner le dépôt : git clone --recursive https://github.com/microsoft/BitNet.git

Changer de répertoire : cd BitNet

Installer les dépendances : # (Recommandé) Créer un nouvel environnement conda

Les utilisateurs Windows doivent utiliser un Developer Command Prompt/PowerShell pour VS2022 pour les commandes de compilation.

Mises à jour récentes

  • 15/01/2026 : Optimisation de l'inférence CPU de BitNet
  • 20/05/2025 : Noyau d'inférence GPU officiel de BitNet
  • 14/04/2025 : Modèle officiel BitNet de 2 milliards de paramètres sur Hugging Face
  • 18/02/2025 : Bitnet.cpp : Inférence Edge efficace pour les LLM ternaires
  • 08/11/2024 : BitNet a4.8 : Activations 4-bit pour les LLM 1-bit
  • 21/10/2024 : Infra IA 1-bit : Partie 1.1, Inférence rapide et sans perte de BitNet b1.58 sur CPU
  • 17/10/2024 : bitnet.cpp 1.0 publié

📖 Read the full source: HN AI Agents

Ad

👀 See Also

Création d'une application macOS de transcription vocale locale avec Claude Code : Étude de cas Vext
Tools

Création d'une application macOS de transcription vocale locale avec Claude Code : Étude de cas Vext

Un développeur a passé 3 mois à construire Vext, une application macOS de dictée vocale utilisant Whisper sur Apple Neural Engine. Claude Code a aidé avec le FFI Rust/Swift, l'optimisation Core ML et l'architecture des raccourcis clavier. L'application fonctionne 100 % hors ligne et transcrit 60 secondes d'audio en ~400 ms.

OpenClawRadar
Le serveur MCP connecte les agents IA aux sessions Chrome existantes avec les cookies et l'authentification.
Tools

Le serveur MCP connecte les agents IA aux sessions Chrome existantes avec les cookies et l'authentification.

@playwright-repl/mcp est un serveur MCP qui connecte les agents d'IA à votre navigateur Chrome existant via l'extension Dramaturg, offrant ainsi l'accès à votre véritable session de navigation, y compris les cookies et l'authentification. Il prend en charge l'intégralité de JavaScript Playwright, les assertions, et fonctionne avec Claude Desktop, Claude Code, Cursor ou tout client MCP.

OpenClawRadar
GLM-5-Turbo présente un faible taux d'erreur d'appel d'outils lors des tests utilisateurs.
Tools

GLM-5-Turbo présente un faible taux d'erreur d'appel d'outils lors des tests utilisateurs.

Le modèle z-ai/glm-5-turbo présente un taux d'erreur moyen de 0,57 % lors des appels d'outils en test, ce qui est nettement inférieur au taux d'environ 3 % du GLM-5. Un utilisateur a rapporté l'avoir utilisé avec succès avec un outil CLI pour écrire un roman fantastique de 97 000 mots avec très peu de problèmes.

OpenClawRadar
Configuration de RouteLLM pour un Routage Économique des Tâches d'IA
Tools

Configuration de RouteLLM pour un Routage Économique des Tâches d'IA

Un utilisateur de Reddit partage une configuration Docker Compose qui combine le modèle local Qwen3.5:4b d'Ollama avec GitHub Copilot via OpenWire, utilisant RouteLLM pour router les tâches complexes vers GPT-4o tout en gérant les tâches plus simples localement.

OpenClawRadar