Qwen3.5 Benchmarks RTX 4090: Contexto 2K a 400K y KV Cache Issues

Pruebas de Rendimiento de Qwen3.5 en RTX 4090

Un desarrollador compartió resultados de puntos de referencia para modelos Qwen3.5 ejecutándose en una GPU RTX 4090, probando ventanas de contexto desde 2,048 hasta 400,000 tokens. Las pruebas originalmente estaban planeadas para un contexto de 262k pero se extendieron a 400k usando yarn y otros métodos.

Modelos Probados

Se evaluaron las siguientes variantes del modelo Qwen3.5:

Qwen3.5-0.8B-Q4_K_M
Qwen3.5-0.8B-bf16
Qwen3.5-2B-Q4_K_M
Qwen3.5-2B-bf16
Qwen3.5-4B-Q4_K_M
Qwen3.5-4B-bf16
Qwen3.5-9B-Q4_K_M
Qwen3.5-9B-bf16
Qwen3.5-27B-Q4_K_M
Qwen3.5-35B-A3B-Q4_K_M

Ventanas de Contexto Probadas

Los modelos fueron evaluados en estas longitudes de contexto específicas: 2048, 4096, 8192, 32768, 65536, 98304, 131072, 196608, 262144, 327680, 360448, 393216 y 400000 tokens.

Metodología de Pruebas

El script de puntos de referencia se configuró para lograr la mejor velocidad posible en tokens/segundo usando configuraciones NGL con caché KV de 8 bits y 4 bits. El desarrollador notó que aunque el tiempo inicial hasta el primer token (TTFT) parece largo, la columna Warm TTFT Avg (s) muestra un mejor rendimiento una vez que se carga la caché KV. El contexto se cargó completamente en la primera interacción intencionalmente.

Para probar las capacidades de contexto, se les dio a los modelos un mensaje de una oración para resumir registros, seguido de 2k a 400k tokens de datos de registro. El desarrollador reportó algunas discrepancias pero un rendimiento general satisfactorio.

Estado Actual y Próximos Pasos

Tres modelos fallaron durante las pruebas y están siendo sometidos a pruebas de descarga KV: Qwen3.5-4B-bf16, Qwen3.5-27B-Q4_K_M y Qwen3.5-35B-A3B-Q4_K_M. El desarrollador tuvo que reiniciar estas pruebas después de que un problema con el script desperdició 24 horas de tiempo de ejecución.

Una vez que se completen las pruebas de descarga de VRAM, el desarrollador planea comparar los resultados con modelos fundamentales y ha guardado las salidas para análisis. El desarrollador expresó sorpresa particular por el rendimiento de los modelos densos de 9B y 27B.

El desarrollador está buscando aportes de la comunidad sobre qué modelos comparar y qué metodología de calificación usar para la evaluación.

📖 Leer la fuente completa: r/openclaw

Resultados de Evaluación de los Modelos Qwen3.5 con Contexto de 2K a 400K en RTX 4090

Pruebas de Rendimiento de Qwen3.5 en RTX 4090

Modelos Probados

Ventanas de Contexto Probadas

Metodología de Pruebas

Estado Actual y Próximos Pasos

👀 Ver también

¿El mito de Claude de Anthropic: ¿Miedo o riesgo real?

Lovable ofrece $100 en créditos gratuitos para la API de Claude por el Día Internacional de la Mujer.

Análisis: Los costos reales de cómputo de Anthropic para los usuarios de Claude Code son mucho más bajos que la cifra reportada de $5,000.

Claude-Code v2.1.72: Mejoras en SSH, reducción de solicitudes de permisos y corrección de errores