Os modelos Bonsai 1-bit Qwen da PrismML testados: 107 t/s de geração em 8GB de VRAM

Modelos Bonsai: Quantização de 1 bit do Qwen da PrismML
A PrismML lançou o Bonsai, um conjunto de versões quantizadas de 1 bit dos modelos Qwen3 (8B, 4B e 1.7B parâmetros). Esses modelos usam quantização extrema para reduzir drasticamente os requisitos de memória, mantendo um desempenho utilizável para certas tarefas.
Benchmarks de desempenho dos testes
Testes em uma RTX 4060 com 8GB de VRAM mostraram:
- Velocidade de geração de 107 tokens/segundo
- >1114 tokens/segundo no processamento de prompts
- Uso de RAM significativamente menor em comparação com modelos quantizados Q4
Para comparação, o Qwen 3.5 4B Q4 alcançou 56 t/s usando os mesmos prompts no mesmo hardware.
Implicações práticas
A pegada de memória reduzida permite executar modelos de 8B parâmetros em sistemas com 8GB de VRAM. Modelos menores podem ser usados com janelas de contexto mais longas devido à economia de memória.
Avaliação de qualidade
Os testes iniciais focaram na sumarização de texto, onde o modelo teve bom desempenho. O testador observou que não avaliou capacidades de codificação ou uso de ferramentas.
Limitações técnicas
A implementação atual tem problemas de inferência na CPU. Quando testado em um mini PC sem GPU:
- O fork do llama.cpp compila com sucesso
- O modelo carrega, mas trava durante o processamento do prompt
- A análise sugere que não existe implementação para CPU - provavelmente desquantiza para FP32 e tenta inferência regular, o que seria extremamente lento na CPU
Potencial técnico
Modelos de 1 bit poderiam reduzir não apenas os requisitos de largura de banda e memória, mas também os requisitos de computação. A multiplicação de matrizes em matrizes de 1 bit poderia usar operações XOR, que são muito mais rápidas do que operações de ponto flutuante. Mesmo com escalonamento para FP16 após as operações XOR, economias significativas de computação devem ser possíveis, potencialmente beneficiando cenários de inferência apenas com CPU e computação de borda.
Detalhes de configuração
O testador baixou:
- O modelo Bonsai 8B
- O fork do llama.cpp da PrismML
- Testado no Windows com CUDA
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Crescimento do Ecossistema OpenClaw e Principais Agentes Mapeados
Um membro da comunidade mapeou a rápida expansão do ecossistema OpenClaw, observando mais de 230 mil estrelas no GitHub, mais de 116 mil membros no Discord e empresas emergentes em hospedagem gerenciada, roteamento de LLM e camadas de segurança dentro de 60 dias do lançamento.

Quando o RLVR Ajuda Pequenos Modelos Ajustados Finamente: Uma Análise de 12 Conjuntos de Dados
Um experimento controlado testou a adição de aprendizado por reforço RLVR em cima de modelos de 1,7 bilhão de parâmetros ajustados com SFT. Os resultados mostram que as tarefas de geração de texto melhoraram em média +2,0 pontos percentuais, enquanto as tarefas estruturadas caíram -0,7 pp.

Prompt 'homem das cavernas' vs 'seja breve': avaliando prompts de compressão para Claude
Um benchmark de 24 prompts em 5 braços descobre que o prompt de 2 palavras 'seja breve.' equivale à compressão caveman tanto na contagem de tokens quanto na qualidade de saída, embora o caveman ofereça consistência estrutural e recursos de escape de segurança.

Os Principais Modelos de IA Apresentam Lacuna de Desempenho em Idiomas Não Ingleses
Uma análise recente mostra que os principais modelos de IA têm desempenho pior em idiomas diferentes do inglês, com o artigo recebendo 16 pontos e 3 comentários no Hacker News.