Qwen3-30B-A3B vs Qwen3.5-35B-A3B: Comparación en RTX 5090

Comparación de Rendimiento: Qwen3-30B-A3B vs Qwen3.5-35B-A3B

Un benchmark detallado que compara Qwen3-30B-A3B y el recién lanzado Qwen3.5-35B-A3B en una NVIDIA RTX 5090 revela compensaciones entre velocidad y manejo de contexto. Ambos modelos utilizan la misma arquitectura Mixture of Experts con 3B parámetros activos, siendo que la versión 3.5 añade 5B parámetros totales adicionales e incluye un proyector de visión.

Hardware y Configuración

GPU: NVIDIA RTX 5090 (32 GB VRAM, Blackwell)
Servidor: llama.cpp b8115 (Docker: ghcr.io/ggml-org/llama.cpp:server-cuda)
Cuantización: Q4_K_M para ambos modelos
Caché KV: Q8_0 (-ctk q8_0 -ctv q8_0)
Contexto: 32,768 tokens (-c 32768)
Parámetros: -ngl 999 -np 4 --flash-attn on -t 12
Modelo A: Qwen3-30B-A3B-Q4_K_M (17 GB en disco)
Modelo B: Qwen3.5-35B-A3B-Q4_K_M (21 GB en disco)

Ambos modelos se calentaron con una solicitud de prueba antes de cronometrar. Los tiempos del lado del servidor provienen de respuestas API, no de mediciones de tiempo real.

Resultados de Velocidad de Inferencia en Crudo

Las pruebas directas de llama.cpp /v1/chat/completions mostraron:

Prompts cortos (8-9 tokens): 30B: 248.2 tok/s, 3.5: 169.5 tok/s
Prompts medios (73-78 tokens): 30B: 236.1 tok/s, 3.5: 163.5 tok/s
Formato largo (800 tokens): 30B: 232.6 tok/s, 3.5: 116.3 tok/s
Generación de código (298-400 tokens): 30B: 233.9 tok/s, 3.5: 161.6 tok/s
Razonamiento (200 tokens): 30B: 234.8 tok/s, 3.5: 158.2 tok/s

Velocidad media de generación: 30B: 237.1 tok/s, 3.5: 153.8 tok/s (el 30B es un 35% más rápido)

Promedios de procesamiento de prompts: 30B: 773.5 tokens/s, 3.5: 518.1 tokens/s

El modelo 3.5 muestra una regresión interesante en salidas largas (800 tokens), cayendo a 116 tok/s frente a ~160 tok/s en salidas más cortas. El procesamiento de prompts es más lento en el 3.5 debido a su vocabulario más grande (248K vs 152K tokens).

Uso de Memoria

Uso de VRAM: 30B usa 27.3 GB en reposo, 3.5 usa 29.0 GB en reposo. Ambos caben cómodamente en la RTX 5090.

Observaciones de Calidad de Respuesta

Las pruebas a temperatura=0.7 mostraron que ambos modelos producen resultados competentes. Observaciones clave:

Escritura creativa: Ambos sólidos, con el 3.5 mostrando una prosa ligeramente más atmosférica
Generación de haikus: Ambos producen estructuras 5-7-5 válidas
Tareas de codificación: Ambos implementan correctamente la caché LRU con operaciones get/put O(1)

El modelo 3.5 maneja el contexto largo significativamente mejor con escalado plano de tokens frente a la degradación del 21% del modelo de 30B. Las diferencias de calidad son mínimas con una ligera ventaja para el 3.5 en estructura y formato.

📖 Read the full source: r/LocalLLaMA