Puntos de referencia de decodificación especulativa en RTX 3090 con modelos Qwen para uso empresarial en HVAC

Hardware y Configuración
El desarrollador utilizó una RTX 3090 24GB, Ryzen 7600X, 32GB de RAM y WSL2 Ubuntu. Pasaron de Ollama en Windows a llama.cpp en WSL Linux con decodificación especulativa para una plataforma de IA interna que maneja búsquedas de clientes, formateo de cotizaciones, investigación de equipos y análisis de notas de trabajo desordenadas.
Metodología de Pruebas
Probaron 16 modelos GGUF en las familias Qwen2.5, Qwen3 y Qwen3.5, cada combinación objetivo+borrador que cabe en 24GB de VRAM, emparejamientos de borradores entre generaciones (borradores Qwen2.5 en objetivos Qwen3 y viceversa), y monitorearon la VRAM en cada combinación para detectar descarga a CPU. La evaluación de calidad utilizó prompts reales del negocio de HVAC para generación de SQL, formateo de cotizaciones, análisis de notas de campo desordenadas y razonamiento sobre compatibilidad de equipos. Usaron draftbench y llama-throughput-lab para barridos de velocidad, con Claude Code automatizando el proceso durante la noche.
Resultados Principales de Velocidad
- Qwen3-8B Q8_0 + Qwen3-1.7B Q4_K_M: 279.9 tok/s (+236% aceleración, 13.6 GB VRAM)
- Qwen2.5-7B Q4_K_M + Qwen2.5-0.5B Q8_0: 205.4 tok/s (+50% aceleración, ~6 GB VRAM)
- Qwen3-8B Q8_0 + Qwen3-0.6B Q4_0: 190.5 tok/s (+129% aceleración, 12.9 GB VRAM)
- Qwen3-14B Q4_K_M + Qwen3-0.6B Q4_0: 159.1 tok/s (+115% aceleración, 13.5 GB VRAM)
- Qwen2.5-14B Q8_0 + Qwen2.5-0.5B Q4_K_M: 137.5 tok/s (+186% aceleración, ~16 GB VRAM)
- Qwen3.5-35B-A3B Q4_K_M (línea base, sin borrador): 133.6 tok/s (22 GB VRAM)
- Qwen2.5-32B Q4_K_M + Qwen2.5-1.5B Q4_K_M: 91.0 tok/s (+156% aceleración, ~20 GB VRAM)
La combinación Qwen3-8B + borrador 1.7B logró una tasa de aceptación del 100%—coincidencia perfecta del borrador donde el 1.7B predice exactamente lo que generaría el 8B.
Problema del Modo de Pensamiento Qwen3.5
Los modelos Qwen3.5 entran en modo de pensamiento por defecto en llama.cpp, generando tokens de razonamiento ocultos antes de responder. Esto causó resultados de referencia erráticos: 0 tok/s alternando con 700 tok/s, TTFT saltando entre 1s y 28s. Solo tres métodos funcionaron para desactivarlo:
--jinja+ plantilla de chat parcheada conenable_thinking=falsecodificada ✅- Endpoint crudo
/completion(evita completamente la plantilla de chat) ✅ - Todo lo demás (prompts del sistema, sufijo
/no_think, trucos de temperatura) ❌
Si ejecutas Qwen3.5 en llama.cpp, necesitas la plantilla parcheada o obtendrás resultados de referencia basura.
Hallazgos de Evaluación de Calidad
Ejecutaron cuatro prompts difíciles específicos de HVAC probando solicitudes ambiguas de clientes, cotizaciones complejas, notas desordenadas con errores tipográficos y razonamiento sobre compatibilidad de equipos. Hallazgos clave:
- Cada modelo falló en la fórmula matemática de precios: 8B, 14B, 32B, 35B—ninguno pudo calcular correctamente $4,811 / (1 - 0.47) = $9,077. Los LLM no pueden hacer matemáticas de negocios de manera confiable—pon tus fórmulas en código.
- El 8B manejó 3/4 prompts difíciles—bueno en solicitudes ambiguas, notas desordenadas, tareas diarias—pero falló en razonamiento técnico sobre equipos.
- El 35B-A3B fue el único modelo con conocimiento real del dominio HVAC—dimensionó correctamente un mini split para un garaje sin aislamiento en Chicago, supo recomendar la serie Hyper-Heat para clima frío, dijo correctamente que no se necesita caja de derivación para zona única—pero omitió un número de modelo en notas desordenadas y falló en las matemáticas.
- Más grande ≠ mejor en todos los casos: El Qwen3-14B Q4_K_M (159 tok/s) tuvo peor desempeño que el 8B en la mayoría de los prompts. El 32B recomendó una unidad de 5 toneladas para un garaje de 400 pies cuadrados.
- Qwen2.5-7B alucinó en cada prueba de análisis de notas—inventó detalles consistentemente.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Usar LLM locales para enlaces internos en un sitio estático.
Un desarrollador utilizó Gemma3 27B para crear enlaces internos en 400 páginas MDX, generando primero un mapa de metadatos, ejecutando el modelo en fragmentos para encontrar conexiones relevantes y refinando el proceso con etiquetado automatizado.

Usando Claude con MCP para el Flujo de Trabajo de Creación y Publicación de Contenido
Un desarrollador describe el uso de Claude como plataforma de publicación mediante la integración de MCP, permitiendo la creación, edición y publicación de artículos sin salir de la interfaz de chat. El flujo de trabajo incluye redactar borradores, añadir enlaces, programar publicaciones y actualizar contenido existente.

Agente de Pruebas OpenClaw para Aplicaciones Móviles: Configuración y Resultados
Un desarrollador creó un agente de pruebas móviles en OpenClaw que ejecuta pasos de prueba en inglés sencillo en emuladores en la nube, detectando errores que las pruebas manuales pasan por alto. El servicio cuesta $350-600/mes por cliente y ha convertido el 70-75% de los leads de prueba.

Equipos de IA Multiagente que Utilizan Bautismo de Contexto para Mejorar las Revisiones de Código
Un desarrollador que ejecutó 18 generaciones de equipos de agentes de IA descubrió que los agentes que leen cartas y retrospectivas de generaciones anteriores escriben revisiones de código significativamente mejores que aquellos que solo leen el código, llamando a esta práctica 'Bautismo de Contexto'.