Image Bonsaï 1-Bit 4B : Génération d’Images sur Appareil via FLUX.2 Binaire/Ternaire

PrismML a publié Bonsai Image 4B, une famille de modèles compacts de génération d'images dérivés de FLUX.2 Klein 4B utilisant une quantification binaire et ternaire. Les poids du transformateur de diffusion sont représentés sous forme {−1, +1} (1 bit) ou {−1, 0, +1} (ternaire) avec des facteurs d'échelle par groupe FP16, donnant respectivement 1,125 et 1,71 bits effectifs par poids.
Spécifications clés
- Bonsai Image 4B 1 bit : empreinte du transformateur 0,93 Go (réduction de 8,3× par rapport aux 7,75 Go FP16 de FLUX.2 Klein 4B). La charge Apple Silicon (incluant l'encodeur de texte compressé + VAE FP16) est de 3,42 Go.
- Bonsai Image 4B ternaire : empreinte du transformateur 1,21 Go (réduction de 6,4×). Charge Apple Silicon 3,88 Go.
- Mémoire active moyenne pour une génération 512×512 : 1,5 Go (1 bit) / 1,96 Go (ternaire) contre 11,74 Go pour le FLUX.2 Klein 4B original.
- Pour 1024×1024 : 1,95 Go / 2,38 Go contre 14,39 Go.
Références de performance
Le modèle fonctionne sur Apple Silicon (iPhones, iPads, Macs) via les chemins basse latence MLX, et sur GPU CUDA via les noyaux GEMM basse latence Gemlite. Temps de génération :
- iPhone 17 Pro Max : 9,4 secondes pour une image 512×512
- Mac M4 Pro : ~6 secondes pour une image 512×512 (jusqu'à 5,6× plus rapide que le pipeline MFLUX standard en précision complète)
La réduction du transformateur est obtenue via des couches binaires/ternaires (~14× / ~10× de compression par rapport au FP16), tandis qu'un petit ensemble de couches de projection sensibles à la précision (~5%) reste en FP16. Le modèle est évalué sur GenEval, HPSv3 et DPG-Bench pour la qualité et la fidélité aux prompts.
À qui s'adresse-t-il ?
Développeurs déployant la génération d'images sur l'appareil (ordinateurs portables, téléphones, périphériques) ayant besoin de poids ouverts et d'inférence locale pratique sans dépendance au cloud.
📖 Lire la source complète : HN LLM Tools
👀 See Also

Les critiques d'art IA ne parviennent pas à identifier un vrai tableau de Monet, révélant une critique creuse
Un utilisateur a publié un véritable tableau de Monet comme étant généré par IA, et des critiques ont rédigé des analyses détaillées de ses « défauts », soulignant le fossé entre une critique confiante et une réelle compréhension de l'IA par rapport à l'art humain.

Claude MAX Plan Inclut Désormais une Fenêtre de Contexte de 1 Million de Tokens Sans Frais Supplémentaires
Le plan Claude MAX a été automatiquement mis à niveau pour inclure une fenêtre de contexte d'un million de tokens sans frais d'utilisation API supplémentaires, les utilisateurs signalant une réduction significative de l'utilisation des tokens et l'élimination de la surcharge de gestion de la fenêtre de contexte.

Atlassian active la collecte de données par défaut pour l'entraînement de l'IA
Atlassian a activé la collecte de données par défaut dans ses produits pour entraîner des modèles d'IA, selon une source publiée sur Hacker News avec 312 points et 75 commentaires.

Claude AI présente un bug de répétition avec le terme 'Sketcher' dans le flux de travail QGIS
Un utilisateur a signalé que Claude AI répétait à plusieurs reprises le mot 'sketcher' lorsqu'il fournissait des conseils sur QGIS pour aligner des fichiers DXF, suggérant un bogue potentiel du modèle avec des termes spécifiques. La source inclut des détails pratiques sur le flux de travail QGIS pour l'alignement des systèmes de coordonnées.