Imagem Bonsai 1-Bit 4B: Geração de Imagens no Dispositivo via FLUX.2 Binário/Ternário

A PrismML lançou o Bonsai Image 4B, uma família de modelos compactos de geração de imagens derivados do FLUX.2 Klein 4B usando quantização binária e ternária. Os pesos do transformer de difusão são representados como {−1, +1} (1-bit) ou {−1, 0, +1} (ternário) com fatores de escala em FP16 por grupo, resultando em 1,125 e 1,71 bits efetivos por peso, respectivamente.
Principais Especificações
- Bonsai Image 4B de 1 bit: footprint do transformer de 0,93 GB (redução de 8,3× em relação aos 7,75 GB FP16 do FLUX.2 Klein 4B). A carga do Apple Silicon (incluindo codificador de texto comprimido + VAE FP16) é de 3,42 GB.
- Bonsai Image 4B Ternário: footprint do transformer de 1,21 GB (redução de 6,4×). Carga do Apple Silicon de 3,88 GB.
- Memória ativa média para geração 512×512: 1,5 GB (1 bit) / 1,96 GB (ternário) contra 11,74 GB do FLUX.2 Klein 4B original.
- Para 1024×1024: 1,95 GB / 2,38 GB contra 14,39 GB.
Benchmarks de Desempenho
O modelo roda no Apple Silicon (iPhones, iPads, Macs) via caminhos de baixa bit MLX, e em GPUs CUDA via kernels GEMM de baixa bit Gemlite. Tempos de geração:
- iPhone 17 Pro Max: 9,4 segundos para imagem 512×512
- Mac M4 Pro: ~6 segundos para imagem 512×512 (até 5,6× mais rápido que o pipeline MFLUX de precisão total original)
A redução do transformer é alcançada por camadas binárias/ternárias (~14× / ~10× de compressão em relação ao FP16), enquanto um pequeno conjunto de camadas de projeção sensíveis à precisão (~5%) permanece em FP16. O modelo é avaliado no GenEval, HPSv3 e DPG-Bench quanto à qualidade e fidelidade ao prompt.
Para Quem é
Desenvolvedores que implantam geração de imagens no dispositivo (laptops, celulares, dispositivos de borda) que precisam de pesos abertos e inferência local prática sem dependência de nuvem.
📖 Leia a fonte completa: HN LLM Tools
👀 See Also

Agentes de IA que não reduzem custos de manutenção afundarão sua equipe
James Shore argumenta que dobrar a velocidade de codificação com IA sem reduzir pela metade os custos de manutenção leva à perda líquida de produtividade em poucos meses. O modelo mostra que 2x a produção de código com 2x o custo de manutenção por linha resulta em produtividade pior do que o ponto de partida após cerca de 5 meses.

Claude Code v2.1.68: Opus 4.6 define esforço médio como padrão e reintroduz a palavra-chave ultrathink
A versão 2.1.68 do Claude Code altera o nível de esforço padrão do Opus 4.6 para médio para assinantes Max e Team, reintroduz a palavra-chave 'ultrathink' para alto esforço e remove os modelos mais antigos Opus 4 e 4.1 da API oficial.

Diagnosticando Desvio Operacional e Amnésia de Tarefas no OpenClaw com Gemini 2.5 Flash no Proxmox
Usuários do OpenClaw relatam problemas com fluxos de trabalho persistentes em uma VM Proxmox, citando desvio operacional e amnésia de tarefas. Apesar do desempenho estável em tarefas únicas, o modelo Gemini 2.5 Flash enfrenta dificuldades com automação e memória nessa configuração.

ICML 2026 rejeita 2% dos artigos por violação da política de revisão por LLM
A ICML 2026 rejeitou 497 artigos (aproximadamente 2% das submissões) após detectar 795 avaliações (cerca de 1% de todas as avaliações) em que os revisores violaram acordos explícitos de não usar LLMs. O método de detecção envolveu a marcação d'água de PDFs com instruções ocultas para LLMs.