PrismML Bonsai 1-bit Qwen: 107 t/s en 8GB VRAM

Modelos Bonsai: cuantización de 1 bit de Qwen por PrismML

PrismML ha lanzado Bonsai, un conjunto de versiones cuantizadas de 1 bit de los modelos Qwen3 (8B, 4B y 1.7B parámetros). Estos modelos utilizan una cuantización extrema para reducir drásticamente los requisitos de memoria mientras mantienen un rendimiento utilizable para ciertas tareas.

Puntos de referencia de rendimiento de las pruebas

Las pruebas en una RTX 4060 con 8GB de VRAM mostraron:

Velocidad de generación de 107 tokens/segundo
Procesamiento de prompts de >1114 tokens/segundo
Uso de RAM significativamente menor en comparación con los modelos cuantizados Q4

Para comparar, Qwen 3.5 4B Q4 logró 56 t/s usando los mismos prompts en el mismo hardware.

Implicaciones prácticas

La reducida huella de memoria permite ejecutar modelos de 8B parámetros en sistemas con 8GB de VRAM. Los modelos más pequeños pueden usarse con ventanas de contexto más largas debido al ahorro de memoria.

Evaluación de calidad

Las pruebas iniciales se centraron en la síntesis de texto, donde el modelo se desempeñó bien. El evaluador notó que no evaluaron capacidades de codificación o uso de herramientas.

Limitaciones técnicas

La implementación actual tiene problemas de inferencia en CPU. Cuando se probó en una mini PC sin GPU:

El fork de llama.cpp se compila exitosamente
El modelo se carga pero se bloquea durante el procesamiento de prompts
El análisis sugiere que no existe una implementación para CPU; probablemente descuantiza a FP32 e intenta una inferencia regular, lo que sería extremadamente lento en CPU

Potencial técnico

Los modelos de 1 bit podrían reducir no solo los requisitos de ancho de banda y memoria, sino también los de cómputo. La multiplicación de matrices en matrices de 1 bit podría usar operaciones XOR, que son mucho más rápidas que las operaciones de punto flotante. Incluso con escalado a FP16 después de las operaciones XOR, debería ser posible un ahorro significativo de cómputo, beneficiando potencialmente escenarios de inferencia solo con CPU y computación de borde.

Detalles de configuración

El evaluador descargó:

El modelo Bonsai 8B
El fork de llama.cpp de PrismML
Probado en Windows con CUDA

📖 Read the full source: r/LocalLLaMA

Los modelos Bonsai 1-bit Qwen de PrismML probados: 107 t/s de generación con 8 GB de VRAM.

Modelos Bonsai: cuantización de 1 bit de Qwen por PrismML

Puntos de referencia de rendimiento de las pruebas

Implicaciones prácticas

Evaluación de calidad

Limitaciones técnicas

Potencial técnico

Detalles de configuración

👀 Ver también

Anthropic restringe las suscripciones a Claude desde plataformas de terceros como OpenClaw.

Claude Code v2.1.183: Modo Automático más Seguro, Correcciones en TUI y Bloqueo de Comandos Git Destructivos

Manifiesto agrega a GitHub Copilot como cuarto proveedor de IA para el enrutamiento de OpenClaw

Anthropic limita OpenClaw con nuevo sistema de crédito: Detalles e impacto