Resultados de Evaluación de los Modelos Qwen3.5 con Contexto de 2K a 400K en RTX 4090

Pruebas de Rendimiento de Qwen3.5 en RTX 4090
Un desarrollador compartió resultados de puntos de referencia para modelos Qwen3.5 ejecutándose en una GPU RTX 4090, probando ventanas de contexto desde 2,048 hasta 400,000 tokens. Las pruebas originalmente estaban planeadas para un contexto de 262k pero se extendieron a 400k usando yarn y otros métodos.
Modelos Probados
Se evaluaron las siguientes variantes del modelo Qwen3.5:
- Qwen3.5-0.8B-Q4_K_M
- Qwen3.5-0.8B-bf16
- Qwen3.5-2B-Q4_K_M
- Qwen3.5-2B-bf16
- Qwen3.5-4B-Q4_K_M
- Qwen3.5-4B-bf16
- Qwen3.5-9B-Q4_K_M
- Qwen3.5-9B-bf16
- Qwen3.5-27B-Q4_K_M
- Qwen3.5-35B-A3B-Q4_K_M
Ventanas de Contexto Probadas
Los modelos fueron evaluados en estas longitudes de contexto específicas: 2048, 4096, 8192, 32768, 65536, 98304, 131072, 196608, 262144, 327680, 360448, 393216 y 400000 tokens.
Metodología de Pruebas
El script de puntos de referencia se configuró para lograr la mejor velocidad posible en tokens/segundo usando configuraciones NGL con caché KV de 8 bits y 4 bits. El desarrollador notó que aunque el tiempo inicial hasta el primer token (TTFT) parece largo, la columna Warm TTFT Avg (s) muestra un mejor rendimiento una vez que se carga la caché KV. El contexto se cargó completamente en la primera interacción intencionalmente.
Para probar las capacidades de contexto, se les dio a los modelos un mensaje de una oración para resumir registros, seguido de 2k a 400k tokens de datos de registro. El desarrollador reportó algunas discrepancias pero un rendimiento general satisfactorio.
Estado Actual y Próximos Pasos
Tres modelos fallaron durante las pruebas y están siendo sometidos a pruebas de descarga KV: Qwen3.5-4B-bf16, Qwen3.5-27B-Q4_K_M y Qwen3.5-35B-A3B-Q4_K_M. El desarrollador tuvo que reiniciar estas pruebas después de que un problema con el script desperdició 24 horas de tiempo de ejecución.
Una vez que se completen las pruebas de descarga de VRAM, el desarrollador planea comparar los resultados con modelos fundamentales y ha guardado las salidas para análisis. El desarrollador expresó sorpresa particular por el rendimiento de los modelos densos de 9B y 27B.
El desarrollador está buscando aportes de la comunidad sobre qué modelos comparar y qué metodología de calificación usar para la evaluación.
📖 Leer la fuente completa: r/openclaw
👀 Ver también

¿El mito de Claude de Anthropic: ¿Miedo o riesgo real?
Anthropic afirma que su modelo Claude Mythos sobresale en la detección de errores de ciberseguridad, pero los críticos argumentan que las advertencias de catástrofe de la empresa son una táctica de marketing para distraer de los daños actuales y presionar a los reguladores.

Lovable ofrece $100 en créditos gratuitos para la API de Claude por el Día Internacional de la Mujer.
Lovable está regalando $100 en créditos de API de Anthropic Claude, $250 en créditos de tarifas de Stripe y acceso gratuito de 24 horas a su plataforma hasta el 8 de marzo. Los usuarios deben reclamar la oferta antes de las 12:59 AM ET del 9 de marzo.

Análisis: Los costos reales de cómputo de Anthropic para los usuarios de Claude Code son mucho más bajos que la cifra reportada de $5,000.
Un artículo reciente analiza la afirmación de que el plan Claude Code Max de $200/mes de Anthropic consume $5,000 en cómputo, encontrando que los costos reales de inferencia son aproximadamente el 10% de los precios de la API al comparar con modelos de peso abierto competitivos en OpenRouter.

Claude-Code v2.1.72: Mejoras en SSH, reducción de solicitudes de permisos y corrección de errores
Claude-Code v2.1.72 añade escritura de archivos compatible con SSH con la tecla /copy w, reduce las solicitudes de permisos bash al agregar herramientas comunes a la lista de aprobación automática, y corrige más de 20 errores incluyendo problemas del modo de voz y dificultades en la instalación de complementos.