Prueba de Decodificación Especulativa en RTX 3090 con Qwen para HVAC

Hardware y Configuración

El desarrollador utilizó una RTX 3090 24GB, Ryzen 7600X, 32GB de RAM y WSL2 Ubuntu. Pasaron de Ollama en Windows a llama.cpp en WSL Linux con decodificación especulativa para una plataforma de IA interna que maneja búsquedas de clientes, formateo de cotizaciones, investigación de equipos y análisis de notas de trabajo desordenadas.

Metodología de Pruebas

Probaron 16 modelos GGUF en las familias Qwen2.5, Qwen3 y Qwen3.5, cada combinación objetivo+borrador que cabe en 24GB de VRAM, emparejamientos de borradores entre generaciones (borradores Qwen2.5 en objetivos Qwen3 y viceversa), y monitorearon la VRAM en cada combinación para detectar descarga a CPU. La evaluación de calidad utilizó prompts reales del negocio de HVAC para generación de SQL, formateo de cotizaciones, análisis de notas de campo desordenadas y razonamiento sobre compatibilidad de equipos. Usaron draftbench y llama-throughput-lab para barridos de velocidad, con Claude Code automatizando el proceso durante la noche.

Resultados Principales de Velocidad

Qwen3-8B Q8_0 + Qwen3-1.7B Q4_K_M: 279.9 tok/s (+236% aceleración, 13.6 GB VRAM)
Qwen2.5-7B Q4_K_M + Qwen2.5-0.5B Q8_0: 205.4 tok/s (+50% aceleración, ~6 GB VRAM)
Qwen3-8B Q8_0 + Qwen3-0.6B Q4_0: 190.5 tok/s (+129% aceleración, 12.9 GB VRAM)
Qwen3-14B Q4_K_M + Qwen3-0.6B Q4_0: 159.1 tok/s (+115% aceleración, 13.5 GB VRAM)
Qwen2.5-14B Q8_0 + Qwen2.5-0.5B Q4_K_M: 137.5 tok/s (+186% aceleración, ~16 GB VRAM)
Qwen3.5-35B-A3B Q4_K_M (línea base, sin borrador): 133.6 tok/s (22 GB VRAM)
Qwen2.5-32B Q4_K_M + Qwen2.5-1.5B Q4_K_M: 91.0 tok/s (+156% aceleración, ~20 GB VRAM)

La combinación Qwen3-8B + borrador 1.7B logró una tasa de aceptación del 100%—coincidencia perfecta del borrador donde el 1.7B predice exactamente lo que generaría el 8B.

Problema del Modo de Pensamiento Qwen3.5

Los modelos Qwen3.5 entran en modo de pensamiento por defecto en llama.cpp, generando tokens de razonamiento ocultos antes de responder. Esto causó resultados de referencia erráticos: 0 tok/s alternando con 700 tok/s, TTFT saltando entre 1s y 28s. Solo tres métodos funcionaron para desactivarlo:

--jinja + plantilla de chat parcheada con enable_thinking=false codificada ✅
Endpoint crudo /completion (evita completamente la plantilla de chat) ✅
Todo lo demás (prompts del sistema, sufijo /no_think, trucos de temperatura) ❌

Si ejecutas Qwen3.5 en llama.cpp, necesitas la plantilla parcheada o obtendrás resultados de referencia basura.

Hallazgos de Evaluación de Calidad

Ejecutaron cuatro prompts difíciles específicos de HVAC probando solicitudes ambiguas de clientes, cotizaciones complejas, notas desordenadas con errores tipográficos y razonamiento sobre compatibilidad de equipos. Hallazgos clave:

Cada modelo falló en la fórmula matemática de precios: 8B, 14B, 32B, 35B—ninguno pudo calcular correctamente $4,811 / (1 - 0.47) = $9,077. Los LLM no pueden hacer matemáticas de negocios de manera confiable—pon tus fórmulas en código.
El 8B manejó 3/4 prompts difíciles—bueno en solicitudes ambiguas, notas desordenadas, tareas diarias—pero falló en razonamiento técnico sobre equipos.
El 35B-A3B fue el único modelo con conocimiento real del dominio HVAC—dimensionó correctamente un mini split para un garaje sin aislamiento en Chicago, supo recomendar la serie Hyper-Heat para clima frío, dijo correctamente que no se necesita caja de derivación para zona única—pero omitió un número de modelo en notas desordenadas y falló en las matemáticas.
Más grande ≠ mejor en todos los casos: El Qwen3-14B Q4_K_M (159 tok/s) tuvo peor desempeño que el 8B en la mayoría de los prompts. El 32B recomendó una unidad de 5 toneladas para un garaje de 400 pies cuadrados.
Qwen2.5-7B alucinó en cada prueba de análisis de notas—inventó detalles consistentemente.

📖 Leer la fuente completa: r/LocalLLaMA

Puntos de referencia de decodificación especulativa en RTX 3090 con modelos Qwen para uso empresarial en HVAC

Hardware y Configuración

Metodología de Pruebas

Resultados Principales de Velocidad

Problema del Modo de Pensamiento Qwen3.5

Hallazgos de Evaluación de Calidad

👀 Ver también

Uso de Kimi K2.6 para desinstalar correctamente aplicaciones de macOS encontrando directorios ocultos de aplicaciones

El Agente de IA de un Desarrollador Inmobiliario Realiza su Primera Llamada Telefónica con Contexto y Estilo de Voz

Claude Code IA Controla iPhone Físico mediante APIs de Accesibilidad

Artifactos de Claude como Constructor de Presentaciones: Contexto Completo + Activos de Marca