Los modelos Bonsai 1-bit Qwen de PrismML probados: 107 t/s de generación con 8 GB de VRAM.

Modelos Bonsai: cuantización de 1 bit de Qwen por PrismML
PrismML ha lanzado Bonsai, un conjunto de versiones cuantizadas de 1 bit de los modelos Qwen3 (8B, 4B y 1.7B parámetros). Estos modelos utilizan una cuantización extrema para reducir drásticamente los requisitos de memoria mientras mantienen un rendimiento utilizable para ciertas tareas.
Puntos de referencia de rendimiento de las pruebas
Las pruebas en una RTX 4060 con 8GB de VRAM mostraron:
- Velocidad de generación de 107 tokens/segundo
- Procesamiento de prompts de >1114 tokens/segundo
- Uso de RAM significativamente menor en comparación con los modelos cuantizados Q4
Para comparar, Qwen 3.5 4B Q4 logró 56 t/s usando los mismos prompts en el mismo hardware.
Implicaciones prácticas
La reducida huella de memoria permite ejecutar modelos de 8B parámetros en sistemas con 8GB de VRAM. Los modelos más pequeños pueden usarse con ventanas de contexto más largas debido al ahorro de memoria.
Evaluación de calidad
Las pruebas iniciales se centraron en la síntesis de texto, donde el modelo se desempeñó bien. El evaluador notó que no evaluaron capacidades de codificación o uso de herramientas.
Limitaciones técnicas
La implementación actual tiene problemas de inferencia en CPU. Cuando se probó en una mini PC sin GPU:
- El fork de llama.cpp se compila exitosamente
- El modelo se carga pero se bloquea durante el procesamiento de prompts
- El análisis sugiere que no existe una implementación para CPU; probablemente descuantiza a FP32 e intenta una inferencia regular, lo que sería extremadamente lento en CPU
Potencial técnico
Los modelos de 1 bit podrían reducir no solo los requisitos de ancho de banda y memoria, sino también los de cómputo. La multiplicación de matrices en matrices de 1 bit podría usar operaciones XOR, que son mucho más rápidas que las operaciones de punto flotante. Incluso con escalado a FP16 después de las operaciones XOR, debería ser posible un ahorro significativo de cómputo, beneficiando potencialmente escenarios de inferencia solo con CPU y computación de borde.
Detalles de configuración
El evaluador descargó:
- El modelo Bonsai 8B
- El fork de llama.cpp de PrismML
- Probado en Windows con CUDA
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Meta capturará los movimientos del mouse y las pulsaciones de teclas de sus empleados para entrenamiento de IA.
Meta planea comenzar a capturar los movimientos del ratón y las pulsaciones de teclas de los empleados para datos de entrenamiento de IA, según un informe de Reuters. El artículo ha generado discusión en Hacker News con 33 puntos y 7 comentarios.

Los principales modelos de IA muestran una brecha de rendimiento en idiomas no ingleses.
Un análisis reciente muestra que los principales modelos de IA tienen un rendimiento peor en idiomas distintos al inglés, con el artículo recibiendo 16 puntos y 3 comentarios en Hacker News.

Investigación de Errores de ACP: Desajuste de Protocolo Provoca el Error 'metadata is missing' con Ollama Local
Un error confirmado en la integración ACP/OpenClaw impide que los comandos de generación acpx funcionen con modelos locales de Ollama debido a una incompatibilidad de protocolo donde acpx espera JSON pero recibe salida de texto.

Ejecutando OpenClawd de forma gratuita: Éxitos y desafíos
En una publicación reciente en r/clawdbot, un miembro comparte su experiencia utilizando OpenClawd sin claves de API, discutiendo sus éxitos y los desafíos enfrentados.