Comparación de rendimiento entre Qwen3-30B-A3B y Qwen3.5-35B-A3B en RTX 5090

✍️ OpenClawRadar📅 Publicado: 25 de febrero de 2026🔗 Source
Comparación de rendimiento entre Qwen3-30B-A3B y Qwen3.5-35B-A3B en RTX 5090
Ad

Comparación de Rendimiento: Qwen3-30B-A3B vs Qwen3.5-35B-A3B

Un benchmark detallado que compara Qwen3-30B-A3B y el recién lanzado Qwen3.5-35B-A3B en una NVIDIA RTX 5090 revela compensaciones entre velocidad y manejo de contexto. Ambos modelos utilizan la misma arquitectura Mixture of Experts con 3B parámetros activos, siendo que la versión 3.5 añade 5B parámetros totales adicionales e incluye un proyector de visión.

Hardware y Configuración

  • GPU: NVIDIA RTX 5090 (32 GB VRAM, Blackwell)
  • Servidor: llama.cpp b8115 (Docker: ghcr.io/ggml-org/llama.cpp:server-cuda)
  • Cuantización: Q4_K_M para ambos modelos
  • Caché KV: Q8_0 (-ctk q8_0 -ctv q8_0)
  • Contexto: 32,768 tokens (-c 32768)
  • Parámetros: -ngl 999 -np 4 --flash-attn on -t 12
  • Modelo A: Qwen3-30B-A3B-Q4_K_M (17 GB en disco)
  • Modelo B: Qwen3.5-35B-A3B-Q4_K_M (21 GB en disco)

Ambos modelos se calentaron con una solicitud de prueba antes de cronometrar. Los tiempos del lado del servidor provienen de respuestas API, no de mediciones de tiempo real.

Ad

Resultados de Velocidad de Inferencia en Crudo

Las pruebas directas de llama.cpp /v1/chat/completions mostraron:

  • Prompts cortos (8-9 tokens): 30B: 248.2 tok/s, 3.5: 169.5 tok/s
  • Prompts medios (73-78 tokens): 30B: 236.1 tok/s, 3.5: 163.5 tok/s
  • Formato largo (800 tokens): 30B: 232.6 tok/s, 3.5: 116.3 tok/s
  • Generación de código (298-400 tokens): 30B: 233.9 tok/s, 3.5: 161.6 tok/s
  • Razonamiento (200 tokens): 30B: 234.8 tok/s, 3.5: 158.2 tok/s

Velocidad media de generación: 30B: 237.1 tok/s, 3.5: 153.8 tok/s (el 30B es un 35% más rápido)

Promedios de procesamiento de prompts: 30B: 773.5 tokens/s, 3.5: 518.1 tokens/s

El modelo 3.5 muestra una regresión interesante en salidas largas (800 tokens), cayendo a 116 tok/s frente a ~160 tok/s en salidas más cortas. El procesamiento de prompts es más lento en el 3.5 debido a su vocabulario más grande (248K vs 152K tokens).

Uso de Memoria

Uso de VRAM: 30B usa 27.3 GB en reposo, 3.5 usa 29.0 GB en reposo. Ambos caben cómodamente en la RTX 5090.

Observaciones de Calidad de Respuesta

Las pruebas a temperatura=0.7 mostraron que ambos modelos producen resultados competentes. Observaciones clave:

  • Escritura creativa: Ambos sólidos, con el 3.5 mostrando una prosa ligeramente más atmosférica
  • Generación de haikus: Ambos producen estructuras 5-7-5 válidas
  • Tareas de codificación: Ambos implementan correctamente la caché LRU con operaciones get/put O(1)

El modelo 3.5 maneja el contexto largo significativamente mejor con escalado plano de tokens frente a la degradación del 21% del modelo de 30B. Las diferencias de calidad son mínimas con una ligera ventaja para el 3.5 en estructura y formato.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Google proporcionará agentes de IA al Pentágono para trabajos no clasificados.
Noticias

Google proporcionará agentes de IA al Pentágono para trabajos no clasificados.

Google proporcionará agentes de IA al Pentágono para trabajos no clasificados, según un informe de Bloomberg. El artículo ha generado discusión en Hacker News con 61 puntos y 52 comentarios.

OpenClawRadar
M5 Max vs M3 Max Puntos de Referencia de Inferencia para Modelos Qwen en oMLX
Noticias

M5 Max vs M3 Max Puntos de Referencia de Inferencia para Modelos Qwen en oMLX

Los puntos de referencia que comparan las MacBook Pro M5 Max y M3 Max ejecutando modelos Qwen 3.5 mediante oMLX v0.2.23 muestran que la M5 Max ofrece una generación de tokens entre 1.4 y 1.7 veces más rápida y hasta 4 veces más rápida en la fase de prellenado con contextos largos.

OpenClawRadar
Claude Code 2.1.136: Seguridad de Acción, Reglas de Denegación Estricta y Monitor de Seguridad
Noticias

Claude Code 2.1.136: Seguridad de Acción, Reglas de Denegación Estricta y Monitor de Seguridad

Claude Code CC 2.1.136 agrega seguridad en las acciones y requisitos de informes veraces, introduce hard_deny como una cuarta categoría de reglas personalizadas y divide el bloqueo de seguridad en bloqueos duros incondicionales y bloqueos suaves autorizables por el usuario.

OpenClawRadar
Decaimiento de Restricciones: Por qué los Agentes LLM Fallan en Código de Backend Estructurado
Noticias

Decaimiento de Restricciones: Por qué los Agentes LLM Fallan en Código de Backend Estructurado

Una nueva investigación introduce la 'degradación por restricciones': a medida que se acumulan los requisitos estructurales, el rendimiento de los agentes LLM cae drásticamente — los agentes capaces pierden 30 puntos en tasas de aprobación de aserciones, los más débiles se acercan a cero. Perspectivas prácticas para cualquier persona que use agentes de IA para codificación.

OpenClawRadar