Bonsai 1-bit Qwen : 107 t/s sur 8 Go VRAM

Modèles Bonsai : quantification sur 1 bit de Qwen par PrismML

PrismML a publié Bonsai, un ensemble de versions quantifiées sur 1 bit des modèles Qwen3 (8B, 4B et 1,7B paramètres). Ces modèles utilisent une quantification extrême pour réduire considérablement les besoins en mémoire tout en conservant des performances utilisables pour certaines tâches.

Benchmarks de performance issus des tests

Les tests sur une RTX 4060 avec 8 Go de VRAM ont montré :

Une vitesse de génération de 107 tokens/seconde
Un traitement de prompt >1114 tokens/seconde
Une utilisation de la RAM nettement inférieure par rapport aux modèles quantifiés en Q4

À titre de comparaison, Qwen 3.5 4B Q4 a atteint 56 t/s avec les mêmes prompts sur le même matériel.

Implications pratiques

L'empreinte mémoire réduite permet d'exécuter des modèles de 8B paramètres sur des systèmes avec 8 Go de VRAM. Les modèles plus petits peuvent être utilisés avec des fenêtres de contexte plus longues grâce aux économies de mémoire.

Évaluation de la qualité

Les premiers tests se sont concentrés sur la synthèse de texte, où le modèle a bien performé. Le testeur a noté qu'il n'avait pas évalué les capacités de codage ou d'utilisation d'outils.

Limitations techniques

L'implémentation actuelle présente des problèmes d'inférence sur CPU. Lors des tests sur un mini PC sans GPU :

Le fork llama.cpp compile avec succès
Le modèle se charge mais se bloque pendant le traitement du prompt
L'analyse suggère qu'aucune implémentation CPU n'existe - il déquantise probablement en FP32 et tente une inférence normale, ce qui serait extrêmement lent sur CPU

Potentiel technique

Les modèles sur 1 bit pourraient réduire non seulement les besoins en bande passante et en mémoire, mais aussi en calcul. La multiplication matricielle sur des matrices 1 bit pourrait utiliser des opérations XOR, qui sont beaucoup plus rapides que les opérations en virgule flottante. Même avec une mise à l'échelle en FP16 après les opérations XOR, des économies de calcul significatives devraient être possibles, bénéficiant potentiellement aux scénarios d'inférence uniquement sur CPU et de calcul en périphérie.

Détails de configuration

Le testeur a téléchargé :

Le modèle Bonsai 8B
Le fork llama.cpp de PrismML
Testé sur Windows avec CUDA

📖 Read the full source: r/LocalLLaMA

Les modèles Bonsai 1-bit Qwen de PrismML testés : génération à 107 t/s sur 8 Go de VRAM

Modèles Bonsai : quantification sur 1 bit de Qwen par PrismML

Benchmarks de performance issus des tests

Implications pratiques

Évaluation de la qualité

Limitations techniques

Potentiel technique

Détails de configuration

👀 See Also

Claude Code v2.1.73 : Surcharges de modèles, corrections de stabilité et améliorations des performances

Une étude d'Anthropic révèle une dégradation cognitive dans les flux de travail assistés par l'IA

Précision du Cadre de Raisonnement STAR Chute de 100 % à 0 % dans les Prompts de Production

Compte Google suspendu après une tentative d'intégration d'OpenClaw