Les modèles Bonsai 1-bit Qwen de PrismML testés : génération à 107 t/s sur 8 Go de VRAM

✍️ OpenClawRadar📅 Publié: April 5, 2026🔗 Source
Les modèles Bonsai 1-bit Qwen de PrismML testés : génération à 107 t/s sur 8 Go de VRAM
Ad

Modèles Bonsai : quantification sur 1 bit de Qwen par PrismML

PrismML a publié Bonsai, un ensemble de versions quantifiées sur 1 bit des modèles Qwen3 (8B, 4B et 1,7B paramètres). Ces modèles utilisent une quantification extrême pour réduire considérablement les besoins en mémoire tout en conservant des performances utilisables pour certaines tâches.

Benchmarks de performance issus des tests

Les tests sur une RTX 4060 avec 8 Go de VRAM ont montré :

  • Une vitesse de génération de 107 tokens/seconde
  • Un traitement de prompt >1114 tokens/seconde
  • Une utilisation de la RAM nettement inférieure par rapport aux modèles quantifiés en Q4

À titre de comparaison, Qwen 3.5 4B Q4 a atteint 56 t/s avec les mêmes prompts sur le même matériel.

Implications pratiques

L'empreinte mémoire réduite permet d'exécuter des modèles de 8B paramètres sur des systèmes avec 8 Go de VRAM. Les modèles plus petits peuvent être utilisés avec des fenêtres de contexte plus longues grâce aux économies de mémoire.

Évaluation de la qualité

Les premiers tests se sont concentrés sur la synthèse de texte, où le modèle a bien performé. Le testeur a noté qu'il n'avait pas évalué les capacités de codage ou d'utilisation d'outils.

Ad

Limitations techniques

L'implémentation actuelle présente des problèmes d'inférence sur CPU. Lors des tests sur un mini PC sans GPU :

  • Le fork llama.cpp compile avec succès
  • Le modèle se charge mais se bloque pendant le traitement du prompt
  • L'analyse suggère qu'aucune implémentation CPU n'existe - il déquantise probablement en FP32 et tente une inférence normale, ce qui serait extrêmement lent sur CPU

Potentiel technique

Les modèles sur 1 bit pourraient réduire non seulement les besoins en bande passante et en mémoire, mais aussi en calcul. La multiplication matricielle sur des matrices 1 bit pourrait utiliser des opérations XOR, qui sont beaucoup plus rapides que les opérations en virgule flottante. Même avec une mise à l'échelle en FP16 après les opérations XOR, des économies de calcul significatives devraient être possibles, bénéficiant potentiellement aux scénarios d'inférence uniquement sur CPU et de calcul en périphérie.

Détails de configuration

Le testeur a téléchargé :

  • Le modèle Bonsai 8B
  • Le fork llama.cpp de PrismML
  • Testé sur Windows avec CUDA

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Stratégie des poids ouverts de Mistral : valorisation à 14 milliards de dollars sur la souveraineté, pas sur les benchmarks
News

Stratégie des poids ouverts de Mistral : valorisation à 14 milliards de dollars sur la souveraineté, pas sur les benchmarks

Mistral a bâti un empire de l'IA de 14 milliards de dollars en proposant des modèles open-weight aux gouvernements et aux entreprises cherchant une indépendance vis-à-vis des technologies américaines et chinoises. Le chiffre d'affaires a atteint 200 millions de dollars en 2025, avec un objectif de 80 millions de dollars par mois d'ici décembre 2026.

OpenClawRadar
Atlassian active la collecte de données par défaut pour l'entraînement de l'IA
News

Atlassian active la collecte de données par défaut pour l'entraînement de l'IA

Atlassian a activé la collecte de données par défaut dans ses produits pour entraîner des modèles d'IA, selon une source publiée sur Hacker News avec 312 points et 75 commentaires.

OpenClawRadar
Titre de l'article : Homme des cavernes vs consigne « soyez bref » : évaluation comparative des prompts de compression pour Claude
News

Titre de l'article : Homme des cavernes vs consigne « soyez bref » : évaluation comparative des prompts de compression pour Claude

Un benchmark de 24 prompts sur 5 bras constate que le prompt en deux mots 'soyez bref.' correspond à la compression caveman tant sur le nombre de tokens que sur la qualité de sortie, bien que caveman offre une cohérence structurelle et des fonctions d'échappement de sécurité.

OpenClawRadar
DeepSeek-V4 Pro et Flash : 1,6 T de paramètres, contexte de 1 M de tokens, attention hybride
News

DeepSeek-V4 Pro et Flash : 1,6 T de paramètres, contexte de 1 M de tokens, attention hybride

DeepSeek-V4-Pro (1,6 billion de paramètres, 49B activés) et V4-Flash (284B de paramètres, 13B activés) prennent en charge un contexte de 1 million de tokens. La nouvelle attention hybride (CSA + HCA) réduit les FLOPs d'inférence par token à 27% et le cache KV à 10% de ceux de DeepSeek-V3.2.

OpenClawRadar