Comparación de rendimiento entre Qwen3-30B-A3B y Qwen3.5-35B-A3B en RTX 5090

Comparación de Rendimiento: Qwen3-30B-A3B vs Qwen3.5-35B-A3B
Un benchmark detallado que compara Qwen3-30B-A3B y el recién lanzado Qwen3.5-35B-A3B en una NVIDIA RTX 5090 revela compensaciones entre velocidad y manejo de contexto. Ambos modelos utilizan la misma arquitectura Mixture of Experts con 3B parámetros activos, siendo que la versión 3.5 añade 5B parámetros totales adicionales e incluye un proyector de visión.
Hardware y Configuración
- GPU: NVIDIA RTX 5090 (32 GB VRAM, Blackwell)
- Servidor: llama.cpp b8115 (Docker: ghcr.io/ggml-org/llama.cpp:server-cuda)
- Cuantización: Q4_K_M para ambos modelos
- Caché KV: Q8_0 (-ctk q8_0 -ctv q8_0)
- Contexto: 32,768 tokens (-c 32768)
- Parámetros: -ngl 999 -np 4 --flash-attn on -t 12
- Modelo A: Qwen3-30B-A3B-Q4_K_M (17 GB en disco)
- Modelo B: Qwen3.5-35B-A3B-Q4_K_M (21 GB en disco)
Ambos modelos se calentaron con una solicitud de prueba antes de cronometrar. Los tiempos del lado del servidor provienen de respuestas API, no de mediciones de tiempo real.
Resultados de Velocidad de Inferencia en Crudo
Las pruebas directas de llama.cpp /v1/chat/completions mostraron:
- Prompts cortos (8-9 tokens): 30B: 248.2 tok/s, 3.5: 169.5 tok/s
- Prompts medios (73-78 tokens): 30B: 236.1 tok/s, 3.5: 163.5 tok/s
- Formato largo (800 tokens): 30B: 232.6 tok/s, 3.5: 116.3 tok/s
- Generación de código (298-400 tokens): 30B: 233.9 tok/s, 3.5: 161.6 tok/s
- Razonamiento (200 tokens): 30B: 234.8 tok/s, 3.5: 158.2 tok/s
Velocidad media de generación: 30B: 237.1 tok/s, 3.5: 153.8 tok/s (el 30B es un 35% más rápido)
Promedios de procesamiento de prompts: 30B: 773.5 tokens/s, 3.5: 518.1 tokens/s
El modelo 3.5 muestra una regresión interesante en salidas largas (800 tokens), cayendo a 116 tok/s frente a ~160 tok/s en salidas más cortas. El procesamiento de prompts es más lento en el 3.5 debido a su vocabulario más grande (248K vs 152K tokens).
Uso de Memoria
Uso de VRAM: 30B usa 27.3 GB en reposo, 3.5 usa 29.0 GB en reposo. Ambos caben cómodamente en la RTX 5090.
Observaciones de Calidad de Respuesta
Las pruebas a temperatura=0.7 mostraron que ambos modelos producen resultados competentes. Observaciones clave:
- Escritura creativa: Ambos sólidos, con el 3.5 mostrando una prosa ligeramente más atmosférica
- Generación de haikus: Ambos producen estructuras 5-7-5 válidas
- Tareas de codificación: Ambos implementan correctamente la caché LRU con operaciones get/put O(1)
El modelo 3.5 maneja el contexto largo significativamente mejor con escalado plano de tokens frente a la degradación del 21% del modelo de 30B. Las diferencias de calidad son mínimas con una ligera ventaja para el 3.5 en estructura y formato.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Google proporcionará agentes de IA al Pentágono para trabajos no clasificados.
Google proporcionará agentes de IA al Pentágono para trabajos no clasificados, según un informe de Bloomberg. El artículo ha generado discusión en Hacker News con 61 puntos y 52 comentarios.

M5 Max vs M3 Max Puntos de Referencia de Inferencia para Modelos Qwen en oMLX
Los puntos de referencia que comparan las MacBook Pro M5 Max y M3 Max ejecutando modelos Qwen 3.5 mediante oMLX v0.2.23 muestran que la M5 Max ofrece una generación de tokens entre 1.4 y 1.7 veces más rápida y hasta 4 veces más rápida en la fase de prellenado con contextos largos.

Claude Code 2.1.136: Seguridad de Acción, Reglas de Denegación Estricta y Monitor de Seguridad
Claude Code CC 2.1.136 agrega seguridad en las acciones y requisitos de informes veraces, introduce hard_deny como una cuarta categoría de reglas personalizadas y divide el bloqueo de seguridad en bloqueos duros incondicionales y bloqueos suaves autorizables por el usuario.

Decaimiento de Restricciones: Por qué los Agentes LLM Fallan en Código de Backend Estructurado
Una nueva investigación introduce la 'degradación por restricciones': a medida que se acumulan los requisitos estructurales, el rendimiento de los agentes LLM cae drásticamente — los agentes capaces pierden 30 puntos en tasas de aprobación de aserciones, los más débiles se acercan a cero. Perspectivas prácticas para cualquier persona que use agentes de IA para codificación.