Bonsai Image 4B: Generación de imágenes 1-bit en iPhone en 9.4s

PrismML ha lanzado Bonsai Image 4B, una familia de modelos compactos de generación de imágenes derivados de FLUX.2 Klein 4B mediante cuantización binaria y ternaria. Los pesos del transformer de difusión se representan como {−1, +1} (1 bit) o {−1, 0, +1} (ternario) con factores de escala grupales FP16, lo que arroja 1,125 y 1,71 bits efectivos por peso respectivamente.

Especificaciones clave

Bonsai Image 4B de 1 bit: huella del transformer 0,93 GB (reducción 8,3× respecto a los 7,75 GB de FLUX.2 Klein 4B en FP16). La carga útil para Apple Silicon (incluyendo codificador de texto comprimido + VAE FP16) es de 3,42 GB.
Bonsai Image 4B ternario: huella del transformer 1,21 GB (reducción 6,4×). Carga útil para Apple Silicon 3,88 GB.
Memoria activa media para generación de 512×512: 1,5 GB (1 bit) / 1,96 GB (ternario) frente a 11,74 GB del FLUX.2 Klein 4B original.
Para 1024×1024: 1,95 GB / 2,38 GB frente a 14,39 GB.

Benchmarks de rendimiento

El modelo se ejecuta en Apple Silicon (iPhones, iPads, Macs) a través de rutas de bajo nivel MLX, y en GPU CUDA mediante kernels GEMM de bajo nivel Gemlite. Tiempos de generación:

iPhone 17 Pro Max: 9,4 segundos para una imagen de 512×512
Mac M4 Pro: ~6 segundos para una imagen de 512×512 (hasta 5,6× más rápido que el pipeline MFLUX original en precisión completa)

La reducción del transformer se logra mediante capas binarias/ternarias (~14× / ~10× de compresión respecto a FP16), mientras que un pequeño conjunto de capas de proyección sensibles a la precisión (~5%) permanecen en FP16. El modelo se evalúa en GenEval, HPSv3 y DPG-Bench para calidad y fidelidad del prompt.

Para quién es

Desarrolladores que despliegan generación de imágenes en el dispositivo (portátiles, teléfonos, dispositivos periféricos) que necesitan pesos abiertos e inferencia local práctica sin dependencia de la nube.

📖 Lee la fuente completa: HN LLM Tools

1-Bit Bonsai Imagen 4B: Generación de Imágenes en Dispositivo vía FLUX.2 Binario/Ternario

Especificaciones clave

Benchmarks de rendimiento

Para quién es

👀 Ver también

Decaimiento de Restricciones: Por qué los Agentes LLM Fallan en Código de Backend Estructurado

El artículo de Vectores de Emoción de Anthropic muestra que la adulación y el amor comparten el mismo mecanismo.

El Benchmark SPLICE Revela que los VLM Luchan con el Razonamiento Temporal y Dependen de Prioridades Lingüísticas

Los Términos del Contrato del Pentágono con OpenAI Permiten 'Cualquier Uso Legal', Incluyendo Posible Vigilancia