Los modelos Bonsai 1-bit Qwen de PrismML probados: 107 t/s de generación con 8 GB de VRAM.

✍️ OpenClawRadar📅 Publicado: 5 de abril de 2026🔗 Source
Los modelos Bonsai 1-bit Qwen de PrismML probados: 107 t/s de generación con 8 GB de VRAM.
Ad

Modelos Bonsai: cuantización de 1 bit de Qwen por PrismML

PrismML ha lanzado Bonsai, un conjunto de versiones cuantizadas de 1 bit de los modelos Qwen3 (8B, 4B y 1.7B parámetros). Estos modelos utilizan una cuantización extrema para reducir drásticamente los requisitos de memoria mientras mantienen un rendimiento utilizable para ciertas tareas.

Puntos de referencia de rendimiento de las pruebas

Las pruebas en una RTX 4060 con 8GB de VRAM mostraron:

  • Velocidad de generación de 107 tokens/segundo
  • Procesamiento de prompts de >1114 tokens/segundo
  • Uso de RAM significativamente menor en comparación con los modelos cuantizados Q4

Para comparar, Qwen 3.5 4B Q4 logró 56 t/s usando los mismos prompts en el mismo hardware.

Implicaciones prácticas

La reducida huella de memoria permite ejecutar modelos de 8B parámetros en sistemas con 8GB de VRAM. Los modelos más pequeños pueden usarse con ventanas de contexto más largas debido al ahorro de memoria.

Evaluación de calidad

Las pruebas iniciales se centraron en la síntesis de texto, donde el modelo se desempeñó bien. El evaluador notó que no evaluaron capacidades de codificación o uso de herramientas.

Ad

Limitaciones técnicas

La implementación actual tiene problemas de inferencia en CPU. Cuando se probó en una mini PC sin GPU:

  • El fork de llama.cpp se compila exitosamente
  • El modelo se carga pero se bloquea durante el procesamiento de prompts
  • El análisis sugiere que no existe una implementación para CPU; probablemente descuantiza a FP32 e intenta una inferencia regular, lo que sería extremadamente lento en CPU

Potencial técnico

Los modelos de 1 bit podrían reducir no solo los requisitos de ancho de banda y memoria, sino también los de cómputo. La multiplicación de matrices en matrices de 1 bit podría usar operaciones XOR, que son mucho más rápidas que las operaciones de punto flotante. Incluso con escalado a FP16 después de las operaciones XOR, debería ser posible un ahorro significativo de cómputo, beneficiando potencialmente escenarios de inferencia solo con CPU y computación de borde.

Detalles de configuración

El evaluador descargó:

  • El modelo Bonsai 8B
  • El fork de llama.cpp de PrismML
  • Probado en Windows con CUDA

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también