Imagem Bonsai 1-Bit 4B: Geração de Imagens no Dispositivo via FLUX.2 Binário/Ternário

✍️ OpenClawRadar📅 Publicado: June 1, 2026🔗 Source

A PrismML lançou o Bonsai Image 4B, uma família de modelos compactos de geração de imagens derivados do FLUX.2 Klein 4B usando quantização binária e ternária. Os pesos do transformer de difusão são representados como {−1, +1} (1-bit) ou {−1, 0, +1} (ternário) com fatores de escala em FP16 por grupo, resultando em 1,125 e 1,71 bits efetivos por peso, respectivamente.

Principais Especificações

Bonsai Image 4B de 1 bit: footprint do transformer de 0,93 GB (redução de 8,3× em relação aos 7,75 GB FP16 do FLUX.2 Klein 4B). A carga do Apple Silicon (incluindo codificador de texto comprimido + VAE FP16) é de 3,42 GB.
Bonsai Image 4B Ternário: footprint do transformer de 1,21 GB (redução de 6,4×). Carga do Apple Silicon de 3,88 GB.
Memória ativa média para geração 512×512: 1,5 GB (1 bit) / 1,96 GB (ternário) contra 11,74 GB do FLUX.2 Klein 4B original.
Para 1024×1024: 1,95 GB / 2,38 GB contra 14,39 GB.

Benchmarks de Desempenho

O modelo roda no Apple Silicon (iPhones, iPads, Macs) via caminhos de baixa bit MLX, e em GPUs CUDA via kernels GEMM de baixa bit Gemlite. Tempos de geração:

iPhone 17 Pro Max: 9,4 segundos para imagem 512×512
Mac M4 Pro: ~6 segundos para imagem 512×512 (até 5,6× mais rápido que o pipeline MFLUX de precisão total original)

A redução do transformer é alcançada por camadas binárias/ternárias (~14× / ~10× de compressão em relação ao FP16), enquanto um pequeno conjunto de camadas de projeção sensíveis à precisão (~5%) permanece em FP16. O modelo é avaliado no GenEval, HPSv3 e DPG-Bench quanto à qualidade e fidelidade ao prompt.

Para Quem é

Desenvolvedores que implantam geração de imagens no dispositivo (laptops, celulares, dispositivos de borda) que precisam de pesos abertos e inferência local prática sem dependência de nuvem.

📖 Leia a fonte completa: HN LLM Tools

👀 See Also

News

Alterações no Plano Individual do GitHub Copilot: Inscrições Pausadas, Limites Mais Restritos, Ajustes no Modelo

O GitHub está pausando novas inscrições para os planos Copilot Pro, Pro+ e Student, enquanto aperta os limites de uso e remove os modelos Opus dos planos Pro. Essas mudanças respondem ao aumento da demanda de computação proveniente de fluxos de trabalho agentivos.

Apr 20, 2026, 08:15 PM UTC

OpenClawRadar

News

Roteiristas de Hollywood se voltam para treinamento de IA: relato em primeira pessoa sobre trabalho de anotação de dados

Um showrunner de Hollywood descreve a transição para o trabalho de treinamento de IA a $52/hora após a greve de 2023, anotando conversas, imagens e vídeos para empresas como Mercor e Outlier.

May 11, 2026, 12:15 PM UTC

OpenClawRadar

News

Qwen3.5-27B Comparação de Desempenho entre 8 bits e 16 bits

Um usuário do Reddit testou o Qwen3.5-27B com vLLM comparando pesos bf16 e cache KV de 16 bits contra a quantização fp8 do Qwen com cache KV de 8 bits, encontrando resultados praticamente idênticos no benchmark Aider usando uma RTX 6000 Pro.

Apr 20, 2026, 05:38 PM UTC

OpenClawRadar

News

Discussão no Reddit sobre Riscos de Longo Prazo da Dependência de Agentes de Codificação

Um usuário do Reddit argumenta que os agentes de codificação atuais, como Claude Code e Copilot, criam uma dependência que pode levar ao aprisionamento a fornecedores, à centralização da criação de software e à comoditização do artesanato da engenharia.

Mar 21, 2026, 07:45 AM UTC

OpenClawRadar