Qwen 3.6 27B Evaluado en DeepSWE: 2% de Puntuación, 70 Horas, 44k de Tokens Promedio de Salida

✍️ OpenClawRadar📅 Publicado: 22 de junio de 2026🔗 Source

Un usuario de Reddit evaluó Qwen 3.6 27B en el benchmark DeepSWE, obteniendo un 2% (1.79% redondeado hacia arriba) — colocándose en el puesto 18 de 20, por encima de Haiku 4.5 y Minimax M2.7. La ejecución completa tomó 70 horas, con un tiempo promedio por tarea de 32 minutos y un promedio de tokens de salida por tarea de 44k — sorprendentemente a la par con el modelo más grande Qwen 3.6 Plus, a pesar de la reputación verbosa del modelo de 27B.

Metodología

Modelo: Qwen 3.6 27B FP8 con caché KV BF16, razonamiento habilitado, ventana de contexto de 262k, servido a través de VLLM
Hardware: 1x RTX6000 Pro Blackwell en RunPod
Arnés de agente: mini-swe en sandboxes Modal
1 ejecución por tarea (en lugar de las 4 oficiales) para ahorrar tiempo; sin rango de puntuación
Costos calculados a partir de la tarifa por hora de RunPod para las tareas completadas
Orquestación: Codex 5.5xhigh monitoreó y gestionó la ejecución completa

Observaciones clave

El autor señala que la puntuación es sospechosamente cercana a la de Qwen 3.6 Plus, lo que plantea preguntas sobre las diferencias arquitectónicas. Argumenta que los modelos locales están quedando cada vez más rezagados frente a las ofertas de código cerrado de frontera: K2.6 es el mejor modelo de código abierto, pero la mayoría ni siquiera puede ejecutarlo localmente. Qwen 3.6 27B se posiciona como una opción local "SOTA para pobres". La tendencia sugiere que el rendimiento de frontera requiere gran escala, lo que a menudo lleva al cierre del código, haciendo que la inferencia local sea un juego perdido en términos de competitividad.

📖 Lee la fuente completa: r/LocalLLaMA

👀 Ver también

Noticias

Cliente reemplaza ingeniero DevOps con Claude AI — resultado es un caos

Un cliente reemplazó a su ingeniero DevOps con Claude para infraestructura y desarrollo de funciones. El resultado: un clúster de Kubernetes generado por IA y repetidas interrupciones que solo se solucionaron revirtiendo los cambios de Claude.

2 jun 2026, 00:17 UTC

OpenClawRadar

Noticias

Desarrollador se declara culpable de un esquema de fraude de transmisión de música con IA por valor de $8 millones.

Michael Smith, de 54 años, admitió haber utilizado miles de cuentas de bots y canciones generadas por IA para desviar 8 millones de dólares en regalías de plataformas de streaming como Spotify, Apple Music y YouTube Music entre 2017 y 2024.

21 mar 2026, 13:45 UTC

OpenClawRadar

Noticias

Claude Code v2.1.157: Carga automática de plugins desde .claude/skills, Agentes mejorados y Worktrees

Claude Code v2.1.157 carga automáticamente plugins desde .claude/skills, añade scaffolding con 'claude plugin init', respeta la configuración de agente en settings.json y corrige más de 20 errores.

30 may 2026, 00:16 UTC

OpenClawRadar

🦀

Noticias

La reacción pública en contra de la IA es real: violencia, datos de encuestas y rendimientos decrecientes

Un ataque con cóctel molotov al CEO de OpenAI, la ira de la Generación Z sube al 31% y el 80% de las empresas no ven ganancias de productividad: la luna de miel de la IA ha terminado.

25 abr 2026, 22:23 UTC

OpenClawRadar