Bonsai Image 4B : image 1-bit sur iPhone en 9,4s

PrismML a publié Bonsai Image 4B, une famille de modèles compacts de génération d'images dérivés de FLUX.2 Klein 4B utilisant une quantification binaire et ternaire. Les poids du transformateur de diffusion sont représentés sous forme {−1, +1} (1 bit) ou {−1, 0, +1} (ternaire) avec des facteurs d'échelle par groupe FP16, donnant respectivement 1,125 et 1,71 bits effectifs par poids.

Spécifications clés

Bonsai Image 4B 1 bit : empreinte du transformateur 0,93 Go (réduction de 8,3× par rapport aux 7,75 Go FP16 de FLUX.2 Klein 4B). La charge Apple Silicon (incluant l'encodeur de texte compressé + VAE FP16) est de 3,42 Go.
Bonsai Image 4B ternaire : empreinte du transformateur 1,21 Go (réduction de 6,4×). Charge Apple Silicon 3,88 Go.
Mémoire active moyenne pour une génération 512×512 : 1,5 Go (1 bit) / 1,96 Go (ternaire) contre 11,74 Go pour le FLUX.2 Klein 4B original.
Pour 1024×1024 : 1,95 Go / 2,38 Go contre 14,39 Go.

Références de performance

Le modèle fonctionne sur Apple Silicon (iPhones, iPads, Macs) via les chemins basse latence MLX, et sur GPU CUDA via les noyaux GEMM basse latence Gemlite. Temps de génération :

iPhone 17 Pro Max : 9,4 secondes pour une image 512×512
Mac M4 Pro : ~6 secondes pour une image 512×512 (jusqu'à 5,6× plus rapide que le pipeline MFLUX standard en précision complète)

La réduction du transformateur est obtenue via des couches binaires/ternaires (~14× / ~10× de compression par rapport au FP16), tandis qu'un petit ensemble de couches de projection sensibles à la précision (~5%) reste en FP16. Le modèle est évalué sur GenEval, HPSv3 et DPG-Bench pour la qualité et la fidélité aux prompts.

À qui s'adresse-t-il ?

Développeurs déployant la génération d'images sur l'appareil (ordinateurs portables, téléphones, périphériques) ayant besoin de poids ouverts et d'inférence locale pratique sans dépendance au cloud.

📖 Lire la source complète : HN LLM Tools

Image Bonsaï 1-Bit 4B : Génération d’Images sur Appareil via FLUX.2 Binaire/Ternaire

Spécifications clés

Références de performance

À qui s'adresse-t-il ?

👀 See Also

Synthetic annonce une restructuration majeure des tarifs avec des changements significatifs dans les limites de débit.

La communauté de ClawbBot discute des améliorations potentielles de l'interface

Anthropic publie le connecteur Blender MCP – Claude contrôle désormais Blender via l'API Python

Qwen 35B-A3B en tant qu'agent toujours actif sur Mac M4 de 16 Go : les E/S disque échouent avant la RAM