Modelos Bonsai 1-bit Qwen PrismML: 107 t/s em 8GB VRAM

Modelos Bonsai: Quantização de 1 bit do Qwen da PrismML

A PrismML lançou o Bonsai, um conjunto de versões quantizadas de 1 bit dos modelos Qwen3 (8B, 4B e 1.7B parâmetros). Esses modelos usam quantização extrema para reduzir drasticamente os requisitos de memória, mantendo um desempenho utilizável para certas tarefas.

Benchmarks de desempenho dos testes

Testes em uma RTX 4060 com 8GB de VRAM mostraram:

Velocidade de geração de 107 tokens/segundo
>1114 tokens/segundo no processamento de prompts
Uso de RAM significativamente menor em comparação com modelos quantizados Q4

Para comparação, o Qwen 3.5 4B Q4 alcançou 56 t/s usando os mesmos prompts no mesmo hardware.

Implicações práticas

A pegada de memória reduzida permite executar modelos de 8B parâmetros em sistemas com 8GB de VRAM. Modelos menores podem ser usados com janelas de contexto mais longas devido à economia de memória.

Avaliação de qualidade

Os testes iniciais focaram na sumarização de texto, onde o modelo teve bom desempenho. O testador observou que não avaliou capacidades de codificação ou uso de ferramentas.

Limitações técnicas

A implementação atual tem problemas de inferência na CPU. Quando testado em um mini PC sem GPU:

O fork do llama.cpp compila com sucesso
O modelo carrega, mas trava durante o processamento do prompt
A análise sugere que não existe implementação para CPU - provavelmente desquantiza para FP32 e tenta inferência regular, o que seria extremamente lento na CPU

Potencial técnico

Modelos de 1 bit poderiam reduzir não apenas os requisitos de largura de banda e memória, mas também os requisitos de computação. A multiplicação de matrizes em matrizes de 1 bit poderia usar operações XOR, que são muito mais rápidas do que operações de ponto flutuante. Mesmo com escalonamento para FP16 após as operações XOR, economias significativas de computação devem ser possíveis, potencialmente beneficiando cenários de inferência apenas com CPU e computação de borda.

Detalhes de configuração

O testador baixou:

O modelo Bonsai 8B
O fork do llama.cpp da PrismML
Testado no Windows com CUDA

📖 Leia a fonte completa: r/LocalLLaMA

Os modelos Bonsai 1-bit Qwen da PrismML testados: 107 t/s de geração em 8GB de VRAM

Modelos Bonsai: Quantização de 1 bit do Qwen da PrismML

Benchmarks de desempenho dos testes

Implicações práticas

Avaliação de qualidade

Limitações técnicas

Potencial técnico

Detalhes de configuração

👀 See Also

Usuários do OpenRouter Relatam Bug de Assinatura Inválida nos Blocos de Pensamento do Sonnet 4.5

Lançamento do CC 2.1.128: Novo Agente de Fundo Integrado, Suporte Beta ao C# e Descontinuação de Modelos

Richard Dawkins conclui que IA é consciente — especialistas contestam

Investigação de Bug do ACP: Incompatibilidade de Protocolo Causa Erro 'metadata is missing' com Ollama Local