Qwen 3.6 27B testé sur DeepSWE : score de 2 %, 70 heures, 44k jetons de sortie en moyenne

Un utilisateur de Reddit a testé Qwen 3.6 27B sur le benchmark DeepSWE, obtenant un score de 2% (1,79% arrondi) — se classant 18e sur 20, devant Haiku 4.5 et Minimax M2.7. L'exécution complète a duré 70 heures, avec un temps moyen par tâche de 32 minutes et une moyenne de 44k tokens de sortie par tâche — étonnamment comparable au plus grand Qwen 3.6 Plus, malgré la réputation de verbosité du modèle 27B.
Méthodologie
- Modèle : Qwen 3.6 27B FP8 avec cache KV BF16, raisonnement activé, fenêtre de contexte de 262k, servi via VLLM
- Matériel : 1x RTX6000 Pro Blackwell sur RunPod
- Agent : mini-swe sur sandbox Modal
- 1 exécution par tâche (au lieu des 4 officielles) pour gagner du temps ; pas de plage de score
- Coûts calculés à partir du tarif horaire RunPod pour les tâches terminées
- Orchestration : Codex 5.5xhigh a supervisé et géré l'ensemble de l'exécution
Observations clés
L'auteur note que le score est étrangement proche de celui de Qwen 3.6 Plus, soulevant des questions sur les différences architecturales. Il soutient que les modèles locaux sont de plus en plus distancés par les offres propriétaires de pointe : K2.6 est le meilleur modèle open-source, mais la plupart des utilisateurs ne peuvent même pas l'exécuter localement. Qwen 3.6 27B est présenté comme une option locale « SOTA du pauvre ». La tendance suggère que les performances de pointe nécessitent une grande échelle, ce qui mène souvent à la fermeture du code, rendant l'inférence locale peu compétitive.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Mise à jour OpenClaw .23 Provoquant des Problèmes d'Agent et des Pertes de Données
La mise à jour OpenClaw .23 provoque des agents non réactifs, incapables d'exécuter des tâches et perdant la connexion avec les extensions de navigateur. L'exécution de la commande de réparation peut supprimer des configurations JSON entières, nécessitant des sauvegardes système pour la récupération.

Les PDG qui pensent que l'IA remplace leurs employés sont simplement de mauvais PDG
Le PDG Aaron Levie explique la 'psychose de l'IA' — lorsque les dirigeants, déconnectés du travail réel, voient des démos simplistes et surestiment les outils agentiques comme Claude Code, ignorant le dernier kilomètre de la production.
Dégradation de l'attention chez Opus 4.7 : les scores MRCR chutent de 92 % à 59 % à 256k de contexte
Opus 4.7 montre une baisse significative du rappel selon le test MRCR v2 à 8 aiguilles : 91,9 % à 59,2 % en contexte 256k, et 78,3 % à 32,2 % en contexte 1M. Anthropic abandonne MRCR au profit de Graphwalks, mais la dégradation correspond aux rapports des utilisateurs.

Les meilleurs modèles d'IA présentent un écart de performance dans les langues non anglophones.
Une analyse récente montre que les principaux modèles d'IA obtiennent de moins bonnes performances dans les langues autres que l'anglais, l'article ayant reçu 16 points et 3 commentaires sur Hacker News.