1-Bit Bonsai Image 4B: Bildgenerierung auf dem Gerät mittels Binary/Ternary FLUX.2

PrismML hat Bonsai Image 4B veröffentlicht, eine Familie kompakter Bildgenerierungsmodelle, die von FLUX.2 Klein 4B mittels binärer und ternärer Quantisierung abgeleitet wurden. Die Gewichte des Diffusionstransformers werden als {−1, +1} (1 Bit) oder {−1, 0, +1} (ternär) mit FP16-Gruppen-Skalierungsfaktoren dargestellt, was effektiv 1,125 bzw. 1,71 Bit pro Gewicht ergibt.
Wichtige Spezifikationen
- 1-Bit Bonsai Image 4B: Transformer-Footprint 0,93 GB (8,3-fache Reduktion gegenüber 7,75 GB FP16 FLUX.2 Klein 4B). Apple-Silicon-Nutzlast (inkl. komprimiertem Text-Encoder + FP16 VAE) beträgt 3,42 GB.
- Ternäres Bonsai Image 4B: Transformer-Footprint 1,21 GB (6,4-fache Reduktion). Apple-Silicon-Nutzlast 3,88 GB.
- Durchschnittlicher aktiver Speicher bei 512×512-Generierung: 1,5 GB (1 Bit) / 1,96 GB (ternär) vs. 11,74 GB beim originalen FLUX.2 Klein 4B.
- Für 1024×1024: 1,95 GB / 2,38 GB vs. 14,39 GB.
Leistungsbenchmarks
Das Modell läuft auf Apple Silicon (iPhones, iPads, Macs) über MLX-Niedrigbit-Pfade und auf CUDA-GPUs über Gemlite-Niedrigbit-GEMM-Kernel. Generierungszeiten:
- iPhone 17 Pro Max: 9,4 Sekunden für ein 512×512-Bild
- Mac M4 Pro: ~6 Sekunden für ein 512×512-Bild (bis zu 5,6× schneller als die unkomprimierte MFLUX-Pipeline in voller Präzision)
Die Transformer-Reduktion wird durch binäre/ternäre Schichten erreicht (~14× / ~10× Kompression gegenüber FP16), während ein kleiner Teil präzisionsempfindlicher Projektionsschichten (~5 %) in FP16 verbleibt. Das Modell wird auf GenEval, HPSv3 und DPG-Bench hinsichtlich Qualität und Prompt-Treue bewertet.
Für wen es gedacht ist
Entwickler, die Bildgenerierung auf Geräten (Laptops, Smartphones, Edge-Geräte) bereitstellen möchten und offene Gewichte sowie praktische lokale Inferenz ohne Cloud-Abhängigkeit benötigen.
📖 Read the full source: HN LLM Tools
👀 Siehe auch

Claude Sonett 4.6 Enthüllt: Verbesserte Codierungs- und Computerverwendbarkeit
Claude Sonnet 4.6 führt ein Kontextfenster von 1 Million Token ein und verbessert die Fähigkeiten im Programmieren und der Computerbenutzung, was es zu einer starken Alternative zu Opus-Klasse-Modellen für ein breites Aufgabenspektrum macht.
Qwen3 27B übertrifft Gemma 4 26B in echtem Tool-Einsatz für lokale KI-Videopipeline
Ein lokaler KI-Videopipeline-Test zeigt, dass Qwen3 27B Tool-Calling sauber handhabt, während Gemma 4 26B in Schleifen stecken blieb. Außerdem werden Said Image Turbo für lokale Bildgenerierung und OpenCode-Orchestrierung mit 174K Kontext behandelt.

Richard Dawkins glaubt, sein KI-Chatbot Claude sei bewusst: Die Claude-Täuschung auf HN
Richard Dawkins glaubt Berichten zufolge, dass sein weiblicher KI-Chatbot (Claude) bewusst ist, was eine HN-Diskussion mit 57 Punkten und 66 Kommentaren auslöste.

Docker-Container: Das Argument gegen Cron-Jobs
Eine Diskussion im r/openclaw beleuchtet das umstrittene Thema der Verwendung von Cron-Jobs innerhalb von Docker-Containern. Während die einfache Automatisierung sofort ansprechend sein mag, rät die Community davon ab.