Resultados de Evaluación de los Modelos Qwen3.5 con Contexto de 2K a 400K en RTX 4090

✍️ OpenClawRadar📅 Publicado: 7 de marzo de 2026🔗 Source
Resultados de Evaluación de los Modelos Qwen3.5 con Contexto de 2K a 400K en RTX 4090
Ad

Pruebas de Rendimiento de Qwen3.5 en RTX 4090

Un desarrollador compartió resultados de puntos de referencia para modelos Qwen3.5 ejecutándose en una GPU RTX 4090, probando ventanas de contexto desde 2,048 hasta 400,000 tokens. Las pruebas originalmente estaban planeadas para un contexto de 262k pero se extendieron a 400k usando yarn y otros métodos.

Modelos Probados

Se evaluaron las siguientes variantes del modelo Qwen3.5:

  • Qwen3.5-0.8B-Q4_K_M
  • Qwen3.5-0.8B-bf16
  • Qwen3.5-2B-Q4_K_M
  • Qwen3.5-2B-bf16
  • Qwen3.5-4B-Q4_K_M
  • Qwen3.5-4B-bf16
  • Qwen3.5-9B-Q4_K_M
  • Qwen3.5-9B-bf16
  • Qwen3.5-27B-Q4_K_M
  • Qwen3.5-35B-A3B-Q4_K_M

Ventanas de Contexto Probadas

Los modelos fueron evaluados en estas longitudes de contexto específicas: 2048, 4096, 8192, 32768, 65536, 98304, 131072, 196608, 262144, 327680, 360448, 393216 y 400000 tokens.

Metodología de Pruebas

El script de puntos de referencia se configuró para lograr la mejor velocidad posible en tokens/segundo usando configuraciones NGL con caché KV de 8 bits y 4 bits. El desarrollador notó que aunque el tiempo inicial hasta el primer token (TTFT) parece largo, la columna Warm TTFT Avg (s) muestra un mejor rendimiento una vez que se carga la caché KV. El contexto se cargó completamente en la primera interacción intencionalmente.

Para probar las capacidades de contexto, se les dio a los modelos un mensaje de una oración para resumir registros, seguido de 2k a 400k tokens de datos de registro. El desarrollador reportó algunas discrepancias pero un rendimiento general satisfactorio.

Ad

Estado Actual y Próximos Pasos

Tres modelos fallaron durante las pruebas y están siendo sometidos a pruebas de descarga KV: Qwen3.5-4B-bf16, Qwen3.5-27B-Q4_K_M y Qwen3.5-35B-A3B-Q4_K_M. El desarrollador tuvo que reiniciar estas pruebas después de que un problema con el script desperdició 24 horas de tiempo de ejecución.

Una vez que se completen las pruebas de descarga de VRAM, el desarrollador planea comparar los resultados con modelos fundamentales y ha guardado las salidas para análisis. El desarrollador expresó sorpresa particular por el rendimiento de los modelos densos de 9B y 27B.

El desarrollador está buscando aportes de la comunidad sobre qué modelos comparar y qué metodología de calificación usar para la evaluación.

📖 Leer la fuente completa: r/openclaw

Ad

👀 Ver también

Diferencias entre usar Claude a través de GitHub Copilot y como una extensión de VS Code.
Noticias

Diferencias entre usar Claude a través de GitHub Copilot y como una extensión de VS Code.

Explora las diferencias entre usar Claude AI a través de las sesiones objetivo de GitHub Copilot y como una extensión de VS Code, basándote en su integración y funcionalidad.

OpenClawRadar
El Proyecto del Agente de IA Obsidian del Desarrollador se Vuelve Viral de la Noche a la Mañana
Noticias

El Proyecto del Agente de IA Obsidian del Desarrollador se Vuelve Viral de la Noche a la Mañana

Un investigador de doctorado creó un equipo de agentes de IA para gestionar su bóveda de Obsidian, lo compartió en GitHub y se despertó con más de 700 estrellas en menos de 13 horas. La repentina atención generó pánico, haciendo que el repositorio se volviera privado temporalmente antes de reabrirse con mejoras.

OpenClawRadar
La Aplicación de Escritorio de Claude Descarga Silenciosamente un Archivo de 13 GB en Cada Inicio Sin Opción de Exclusión
Noticias

La Aplicación de Escritorio de Claude Descarga Silenciosamente un Archivo de 13 GB en Cada Inicio Sin Opción de Exclusión

La aplicación de escritorio de Claude descarga automáticamente un archivo de ~12,95 GB llamado claudevm.bundle cada vez que se inicia, incluso para usuarios que no utilizan Claude Code. El soporte de Anthropic confirmó que esto es intencional y que los usuarios individuales no tienen forma de desactivarlo.

OpenClawRadar
Las startups informan gastar más en computación de IA que en salarios humanos.
Noticias

Las startups informan gastar más en computación de IA que en salarios humanos.

Startups de IA como Swan AI reportan facturas mensuales de computación de IA que superan los $113k, con CEOs que describen esto como 'tokenmaxxing', donde el gasto en IA reemplaza los presupuestos tradicionales de personal.

OpenClawRadar