Microsoft's BitNet permet l'inférence de LLM à 100 milliards de paramètres sur un seul CPU

BitNet : Quantification 1-bit pour l'inférence LLM sur CPU
Le projet open-source BitNet de Microsoft permet l'inférence de grands modèles de langage sur du matériel grand public sans GPU. L'innovation clé est la quantification 1,58-bit (contre 16-bit typique), réduisant la taille du modèle de 10 à 20 fois tout en maintenant des performances compétitives.
Détails techniques clés
- Dépôt :
https://github.com/microsoft/BitNet - Modèle :
bitnet-b1.58-2B-4Tdisponible sur HuggingFace - Configuration matérielle requise : CPU 8 cœurs, 32 Go de RAM, SSD NVMe
- Taille du modèle : 1,19 Go de téléchargement pour la version à 2B paramètres
- Performances : Le modèle 100B fonctionne à 5-7 tokens/seconde sur un seul CPU (vitesse de lecture humaine)
- Accélération : 2,37x à 6,17x plus rapide que llama.cpp sur CPU x86, 1,37x à 5,07x d'accélération sur ARM (Mac)
Résultats des benchmarks
Le modèle à 2B paramètres, entraîné sur 4 billions de tokens, égale ou dépasse des modèles similaires en pleine précision (Llama 3.2 1B, Gemma 3 1B, Qwen2.5 1.5B) sur les benchmarks standards pour la compréhension, les mathématiques, le codage et le chat.
- Utilisation de la mémoire : 0,4 Go contre 1,4-4,8 Go pour les modèles comparables
- Latence CPU : 29 ms contre 41-124 ms pour les modèles comparables
- Efficacité énergétique : ~10x moins de consommation d'énergie
Options de déploiement
La source suggère plusieurs approches de déploiement :
bitnet.cpps'exécute directement sur le matériel CPU- WSL2 Ubuntu sur Windows 11 pour Node24 OpenClaw & bitnet.cpp
- Systèmes Alpine RAMdisk amorçables par USB avec BitNet, OpenClaw, proxy LiteLLM et Open WebUI
- Ordinateurs mini HP 800 G3 reconditionnés (i7-6700, 32 Go de RAM, 1 To NVMe) disponibles pour ~334 $
Cas d'utilisation
- Applications périphériques et robotique
- Configurations RAG personnelles avec interfaces de type chatbot
- Systèmes de mémoire OS IA avec intervalles de capture d'écran, recherche, résumés et chronologies
- Stacks locaux avec Qwen 3.5 pour les utilisateurs GPU (les approches quantifiées Llama-3-70B approchent les performances de ChatGPT 4 sur RTX 4090)
Le projet a récemment attiré l'attention en raison des optimisations d'inférence CPU de janvier 2026 et des prix élevés des GPU, rendant l'inférence basée sur CPU plus pratique pour les développeurs avec un matériel limité.
📖 Read the full source: r/openclaw
👀 See Also

L'Orchestrateur : Pourquoi l'intention devrait survivre au processus
Les piles d'agents actuelles inversent l'identité et la surface — la couche orchestrée devrait se situer entre les agents et les runtimes, avec des primitives d'identité, de routage, de transfert et des appels inter-pilotes. Exemple pratique : trier un test instable entre Ollama, Gemini CLI et Grok Build sous une seule intention.

Analyse de santé du projet : Facteur de bus et activité de validation dans les dépôts Claw/Assistant
Un utilisateur de Reddit a collecté des données de commit de projets majeurs de claw/assistant et a découvert que beaucoup ont un bus factor de 1, ce qui signifie qu'un seul auteur représente plus de 50% des commits. Certains projets montrent des chutes drastiques d'activité en avril.

Anthropic restreint l'utilisation des abonnements Claude sur des outils tiers comme OpenClaw.
Anthropic modifie sa politique d'abonnement à Claude pour bloquer l'utilisation sur des interfaces tierces, y compris OpenClaw, exigeant une facturation séparée au paiement à l'utilisation pour ces outils à partir du 4 avril. L'entreprise propose un crédit unique équivalent au prix de l'abonnement mensuel et des remises allant jusqu'à 30 % pour les achats anticipés.

Anthropic sécurise 300 MW de capacité de calcul au Colossus 1 avec 220 000 GPU NVIDIA via un partenariat avec SpaceX
Anthropic a annoncé un partenariat avec SpaceX pour utiliser toute la capacité de calcul du centre de données Colossus 1, obtenant ainsi plus de 300 MW et plus de 220 000 GPU NVIDIA en un mois.