Qwen 3.6 27B Evaluado en DeepSWE: 2% de Puntuación, 70 Horas, 44k de Tokens Promedio de Salida

✍️ OpenClawRadar📅 Publicado: 22 de junio de 2026🔗 Source
Qwen 3.6 27B Evaluado en DeepSWE: 2% de Puntuación, 70 Horas, 44k de Tokens Promedio de Salida
Ad

Un usuario de Reddit evaluó Qwen 3.6 27B en el benchmark DeepSWE, obteniendo un 2% (1.79% redondeado hacia arriba) — colocándose en el puesto 18 de 20, por encima de Haiku 4.5 y Minimax M2.7. La ejecución completa tomó 70 horas, con un tiempo promedio por tarea de 32 minutos y un promedio de tokens de salida por tarea de 44k — sorprendentemente a la par con el modelo más grande Qwen 3.6 Plus, a pesar de la reputación verbosa del modelo de 27B.

Metodología

  • Modelo: Qwen 3.6 27B FP8 con caché KV BF16, razonamiento habilitado, ventana de contexto de 262k, servido a través de VLLM
  • Hardware: 1x RTX6000 Pro Blackwell en RunPod
  • Arnés de agente: mini-swe en sandboxes Modal
  • 1 ejecución por tarea (en lugar de las 4 oficiales) para ahorrar tiempo; sin rango de puntuación
  • Costos calculados a partir de la tarifa por hora de RunPod para las tareas completadas
  • Orquestación: Codex 5.5xhigh monitoreó y gestionó la ejecución completa
Ad

Observaciones clave

El autor señala que la puntuación es sospechosamente cercana a la de Qwen 3.6 Plus, lo que plantea preguntas sobre las diferencias arquitectónicas. Argumenta que los modelos locales están quedando cada vez más rezagados frente a las ofertas de código cerrado de frontera: K2.6 es el mejor modelo de código abierto, pero la mayoría ni siquiera puede ejecutarlo localmente. Qwen 3.6 27B se posiciona como una opción local "SOTA para pobres". La tendencia sugiere que el rendimiento de frontera requiere gran escala, lo que a menudo lleva al cierre del código, haciendo que la inferencia local sea un juego perdido en términos de competitividad.

📖 Lee la fuente completa: r/LocalLLaMA

Ad

👀 Ver también