Imagem Bonsai 1-Bit 4B: Geração de Imagens no Dispositivo via FLUX.2 Binário/Ternário

✍️ OpenClawRadar📅 Publicado: June 1, 2026🔗 Source
Imagem Bonsai 1-Bit 4B: Geração de Imagens no Dispositivo via FLUX.2 Binário/Ternário
Ad

A PrismML lançou o Bonsai Image 4B, uma família de modelos compactos de geração de imagens derivados do FLUX.2 Klein 4B usando quantização binária e ternária. Os pesos do transformer de difusão são representados como {−1, +1} (1-bit) ou {−1, 0, +1} (ternário) com fatores de escala em FP16 por grupo, resultando em 1,125 e 1,71 bits efetivos por peso, respectivamente.

Principais Especificações

  • Bonsai Image 4B de 1 bit: footprint do transformer de 0,93 GB (redução de 8,3× em relação aos 7,75 GB FP16 do FLUX.2 Klein 4B). A carga do Apple Silicon (incluindo codificador de texto comprimido + VAE FP16) é de 3,42 GB.
  • Bonsai Image 4B Ternário: footprint do transformer de 1,21 GB (redução de 6,4×). Carga do Apple Silicon de 3,88 GB.
  • Memória ativa média para geração 512×512: 1,5 GB (1 bit) / 1,96 GB (ternário) contra 11,74 GB do FLUX.2 Klein 4B original.
  • Para 1024×1024: 1,95 GB / 2,38 GB contra 14,39 GB.
Ad

Benchmarks de Desempenho

O modelo roda no Apple Silicon (iPhones, iPads, Macs) via caminhos de baixa bit MLX, e em GPUs CUDA via kernels GEMM de baixa bit Gemlite. Tempos de geração:

  • iPhone 17 Pro Max: 9,4 segundos para imagem 512×512
  • Mac M4 Pro: ~6 segundos para imagem 512×512 (até 5,6× mais rápido que o pipeline MFLUX de precisão total original)

A redução do transformer é alcançada por camadas binárias/ternárias (~14× / ~10× de compressão em relação ao FP16), enquanto um pequeno conjunto de camadas de projeção sensíveis à precisão (~5%) permanece em FP16. O modelo é avaliado no GenEval, HPSv3 e DPG-Bench quanto à qualidade e fidelidade ao prompt.

Para Quem é

Desenvolvedores que implantam geração de imagens no dispositivo (laptops, celulares, dispositivos de borda) que precisam de pesos abertos e inferência local prática sem dependência de nuvem.

📖 Leia a fonte completa: HN LLM Tools

Ad

👀 See Also

Agentes de IA que não reduzem custos de manutenção afundarão sua equipe
News

Agentes de IA que não reduzem custos de manutenção afundarão sua equipe

James Shore argumenta que dobrar a velocidade de codificação com IA sem reduzir pela metade os custos de manutenção leva à perda líquida de produtividade em poucos meses. O modelo mostra que 2x a produção de código com 2x o custo de manutenção por linha resulta em produtividade pior do que o ponto de partida após cerca de 5 meses.

OpenClawRadar
Claude Code v2.1.68: Opus 4.6 define esforço médio como padrão e reintroduz a palavra-chave ultrathink
News

Claude Code v2.1.68: Opus 4.6 define esforço médio como padrão e reintroduz a palavra-chave ultrathink

A versão 2.1.68 do Claude Code altera o nível de esforço padrão do Opus 4.6 para médio para assinantes Max e Team, reintroduz a palavra-chave 'ultrathink' para alto esforço e remove os modelos mais antigos Opus 4 e 4.1 da API oficial.

OpenClawRadar
Diagnosticando Desvio Operacional e Amnésia de Tarefas no OpenClaw com Gemini 2.5 Flash no Proxmox
News

Diagnosticando Desvio Operacional e Amnésia de Tarefas no OpenClaw com Gemini 2.5 Flash no Proxmox

Usuários do OpenClaw relatam problemas com fluxos de trabalho persistentes em uma VM Proxmox, citando desvio operacional e amnésia de tarefas. Apesar do desempenho estável em tarefas únicas, o modelo Gemini 2.5 Flash enfrenta dificuldades com automação e memória nessa configuração.

OpenClawRadar
ICML 2026 rejeita 2% dos artigos por violação da política de revisão por LLM
News

ICML 2026 rejeita 2% dos artigos por violação da política de revisão por LLM

A ICML 2026 rejeitou 497 artigos (aproximadamente 2% das submissões) após detectar 795 avaliações (cerca de 1% de todas as avaliações) em que os revisores violaram acordos explícitos de não usar LLMs. O método de detecção envolveu a marcação d'água de PDFs com instruções ocultas para LLMs.

OpenClawRadar