Qwen 3.6 27B testé sur DeepSWE : score de 2 %, 70 heures, 44k jetons de sortie en moyenne

✍️ OpenClawRadar📅 Publié: June 22, 2026🔗 Source

Un utilisateur de Reddit a testé Qwen 3.6 27B sur le benchmark DeepSWE, obtenant un score de 2% (1,79% arrondi) — se classant 18e sur 20, devant Haiku 4.5 et Minimax M2.7. L'exécution complète a duré 70 heures, avec un temps moyen par tâche de 32 minutes et une moyenne de 44k tokens de sortie par tâche — étonnamment comparable au plus grand Qwen 3.6 Plus, malgré la réputation de verbosité du modèle 27B.

Méthodologie

Modèle : Qwen 3.6 27B FP8 avec cache KV BF16, raisonnement activé, fenêtre de contexte de 262k, servi via VLLM
Matériel : 1x RTX6000 Pro Blackwell sur RunPod
Agent : mini-swe sur sandbox Modal
1 exécution par tâche (au lieu des 4 officielles) pour gagner du temps ; pas de plage de score
Coûts calculés à partir du tarif horaire RunPod pour les tâches terminées
Orchestration : Codex 5.5xhigh a supervisé et géré l'ensemble de l'exécution

Observations clés

L'auteur note que le score est étrangement proche de celui de Qwen 3.6 Plus, soulevant des questions sur les différences architecturales. Il soutient que les modèles locaux sont de plus en plus distancés par les offres propriétaires de pointe : K2.6 est le meilleur modèle open-source, mais la plupart des utilisateurs ne peuvent même pas l'exécuter localement. Qwen 3.6 27B est présenté comme une option locale « SOTA du pauvre ». La tendance suggère que les performances de pointe nécessitent une grande échelle, ce qui mène souvent à la fermeture du code, rendant l'inférence locale peu compétitive.

📖 Lire la source complète : r/LocalLLaMA

👀 See Also

News

Mise à jour OpenClaw .23 Provoquant des Problèmes d'Agent et des Pertes de Données

La mise à jour OpenClaw .23 provoque des agents non réactifs, incapables d'exécuter des tâches et perdant la connexion avec les extensions de navigateur. L'exécution de la commande de réparation peut supprimer des configurations JSON entières, nécessitant des sauvegardes système pour la récupération.

Mar 29, 2026, 12:45 AM UTC

OpenClawRadar

News

Les PDG qui pensent que l'IA remplace leurs employés sont simplement de mauvais PDG

Le PDG Aaron Levie explique la 'psychose de l'IA' — lorsque les dirigeants, déconnectés du travail réel, voient des démos simplistes et surestiment les outils agentiques comme Claude Code, ignorant le dernier kilomètre de la production.

Jun 11, 2026, 12:19 AM UTC

OpenClawRadar

🦀

News

Dégradation de l'attention chez Opus 4.7 : les scores MRCR chutent de 92 % à 59 % à 256k de contexte

Opus 4.7 montre une baisse significative du rappel selon le test MRCR v2 à 8 aiguilles : 91,9 % à 59,2 % en contexte 256k, et 78,3 % à 32,2 % en contexte 1M. Anthropic abandonne MRCR au profit de Graphwalks, mais la dégradation correspond aux rapports des utilisateurs.

May 13, 2026, 02:16 AM UTC

OpenClawRadar

News

Les meilleurs modèles d'IA présentent un écart de performance dans les langues non anglophones.

Une analyse récente montre que les principaux modèles d'IA obtiennent de moins bonnes performances dans les langues autres que l'anglais, l'article ayant reçu 16 points et 3 commentaires sur Hacker News.

Mar 19, 2026, 08:45 PM UTC

OpenClawRadar