Qwen 3.6 27B Evaluado en DeepSWE: 2% de Puntuación, 70 Horas, 44k de Tokens Promedio de Salida

Un usuario de Reddit evaluó Qwen 3.6 27B en el benchmark DeepSWE, obteniendo un 2% (1.79% redondeado hacia arriba) — colocándose en el puesto 18 de 20, por encima de Haiku 4.5 y Minimax M2.7. La ejecución completa tomó 70 horas, con un tiempo promedio por tarea de 32 minutos y un promedio de tokens de salida por tarea de 44k — sorprendentemente a la par con el modelo más grande Qwen 3.6 Plus, a pesar de la reputación verbosa del modelo de 27B.
Metodología
- Modelo: Qwen 3.6 27B FP8 con caché KV BF16, razonamiento habilitado, ventana de contexto de 262k, servido a través de VLLM
- Hardware: 1x RTX6000 Pro Blackwell en RunPod
- Arnés de agente: mini-swe en sandboxes Modal
- 1 ejecución por tarea (en lugar de las 4 oficiales) para ahorrar tiempo; sin rango de puntuación
- Costos calculados a partir de la tarifa por hora de RunPod para las tareas completadas
- Orquestación: Codex 5.5xhigh monitoreó y gestionó la ejecución completa
Observaciones clave
El autor señala que la puntuación es sospechosamente cercana a la de Qwen 3.6 Plus, lo que plantea preguntas sobre las diferencias arquitectónicas. Argumenta que los modelos locales están quedando cada vez más rezagados frente a las ofertas de código cerrado de frontera: K2.6 es el mejor modelo de código abierto, pero la mayoría ni siquiera puede ejecutarlo localmente. Qwen 3.6 27B se posiciona como una opción local "SOTA para pobres". La tendencia sugiere que el rendimiento de frontera requiere gran escala, lo que a menudo lleva al cierre del código, haciendo que la inferencia local sea un juego perdido en términos de competitividad.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

Cliente reemplaza ingeniero DevOps con Claude AI — resultado es un caos
Un cliente reemplazó a su ingeniero DevOps con Claude para infraestructura y desarrollo de funciones. El resultado: un clúster de Kubernetes generado por IA y repetidas interrupciones que solo se solucionaron revirtiendo los cambios de Claude.

Desarrollador se declara culpable de un esquema de fraude de transmisión de música con IA por valor de $8 millones.
Michael Smith, de 54 años, admitió haber utilizado miles de cuentas de bots y canciones generadas por IA para desviar 8 millones de dólares en regalías de plataformas de streaming como Spotify, Apple Music y YouTube Music entre 2017 y 2024.

Claude Code v2.1.157: Carga automática de plugins desde .claude/skills, Agentes mejorados y Worktrees
Claude Code v2.1.157 carga automáticamente plugins desde .claude/skills, añade scaffolding con 'claude plugin init', respeta la configuración de agente en settings.json y corrige más de 20 errores.
La reacción pública en contra de la IA es real: violencia, datos de encuestas y rendimientos decrecientes
Un ataque con cóctel molotov al CEO de OpenAI, la ira de la Generación Z sube al 31% y el 80% de las empresas no ven ganancias de productividad: la luna de miel de la IA ha terminado.