1-Bit Bonsai Imagen 4B: Generación de Imágenes en Dispositivo vía FLUX.2 Binario/Ternario

PrismML ha lanzado Bonsai Image 4B, una familia de modelos compactos de generación de imágenes derivados de FLUX.2 Klein 4B mediante cuantización binaria y ternaria. Los pesos del transformer de difusión se representan como {−1, +1} (1 bit) o {−1, 0, +1} (ternario) con factores de escala grupales FP16, lo que arroja 1,125 y 1,71 bits efectivos por peso respectivamente.
Especificaciones clave
- Bonsai Image 4B de 1 bit: huella del transformer 0,93 GB (reducción 8,3× respecto a los 7,75 GB de FLUX.2 Klein 4B en FP16). La carga útil para Apple Silicon (incluyendo codificador de texto comprimido + VAE FP16) es de 3,42 GB.
- Bonsai Image 4B ternario: huella del transformer 1,21 GB (reducción 6,4×). Carga útil para Apple Silicon 3,88 GB.
- Memoria activa media para generación de 512×512: 1,5 GB (1 bit) / 1,96 GB (ternario) frente a 11,74 GB del FLUX.2 Klein 4B original.
- Para 1024×1024: 1,95 GB / 2,38 GB frente a 14,39 GB.
Benchmarks de rendimiento
El modelo se ejecuta en Apple Silicon (iPhones, iPads, Macs) a través de rutas de bajo nivel MLX, y en GPU CUDA mediante kernels GEMM de bajo nivel Gemlite. Tiempos de generación:
- iPhone 17 Pro Max: 9,4 segundos para una imagen de 512×512
- Mac M4 Pro: ~6 segundos para una imagen de 512×512 (hasta 5,6× más rápido que el pipeline MFLUX original en precisión completa)
La reducción del transformer se logra mediante capas binarias/ternarias (~14× / ~10× de compresión respecto a FP16), mientras que un pequeño conjunto de capas de proyección sensibles a la precisión (~5%) permanecen en FP16. El modelo se evalúa en GenEval, HPSv3 y DPG-Bench para calidad y fidelidad del prompt.
Para quién es
Desarrolladores que despliegan generación de imágenes en el dispositivo (portátiles, teléfonos, dispositivos periféricos) que necesitan pesos abiertos e inferencia local práctica sin dependencia de la nube.
📖 Lee la fuente completa: HN LLM Tools
👀 Ver también

NVIDIA lanza Nemotron-3-Ultra-550B: 55B parámetros activos, 1M de contexto, híbrido LatentMoE
NVIDIA lanzó Nemotron-3-Ultra-550B-A55B-BF16, un modelo de 550B parámetros con 55B activos, contexto de 1M de tokens, arquitectura híbrida LatentMoE (Mamba-2 + MoE + Attention + MTP) y razonamiento configurable.

Mistral AI adquiere Emmi AI para construir una plataforma de IA de ingeniería industrial
Mistral AI adquiere Emmi AI, integrando modelos de IA Física para simulación industrial en energía, automoción, semiconductores y aeroespacial. El equipo combinado de más de 30 investigadores abrirá una nueva oficina en Linz.

El Cumplimiento del Prompt del Sistema Claude se Degrada en Conversaciones Largas
Los agentes basados en Claude muestran un cumplimiento degradado de las indicaciones del sistema después de 40-50 mensajes, ignorando las reglas de formato y olvidando las restricciones. El problema surge porque las indicaciones del sistema compiten con el historial de conversación por el peso de atención en la ventana de contexto.

Anthropic Rechaza las Demandas del Pentágono para Eliminar Medidas de Seguridad, Pierde Contratos Federales
Anthropic rechazó las exigencias del Pentágono de eliminar las salvaguardas de seguridad de Claude para aplicaciones militares, lo que llevó a la cancelación de un contrato de 200 millones de dólares y a una orden presidencial que prohíbe el uso de su tecnología por parte de las agencias federales.