Résultats de référence des tests APEX : Performance de Qwen 3.5 sur des tâches de codage réelles

Résultats du benchmark APEX Testing pour les LLM de codage
Le benchmark APEX Testing a été mis à jour avec les résultats des modèles Qwen 3.5, GPT-5.3 Codex, et plusieurs modèles locaux quantifiés sur 70 tâches de codage réelles provenant de dépôts GitHub. Le benchmark inclut désormais un système agentique d'utilisation d'outils pour les modèles locaux qui leur permet d'explorer et d'implémenter des solutions de manière autonome, similaire aux modèles agentiques cloud.
Principales constatations
- Performance de Codex 5.3 : Essentiellement à égalité avec GPT-5.2 à la 4ème place globale, montrant des performances constantes des tâches faciles aux tâches maîtres avec des baisses de performance minimales à travers les niveaux de difficulté.
- Qwen 3.5 397B : Chute significativement sur les tâches maîtres, maintenant ~1550 ELO sur les tâches difficiles/expertes mais tombant à 1194 ELO sur les tâches maîtres. Le modèle a du mal à coordonner de nombreux fichiers sur plusieurs étapes.
- GLM-4.7 quantifié : Reste le meilleur modèle local avec 1572 ELO, surpassant tous les modèles Qwen 3.5, y compris la version cloud complète 397B. Le créateur du benchmark note qu'il est meilleur que GLM-5 pour les tâches de codage.
- Qwen 3.5 27B : Performe correctement sur un seul GPU avec 1384 ELO, battant DeepSeek V3.2 et tous les modèles qwen3-coder. Adapté pour des travaux du type "corrige ce bug" ou "ajoute ce point de terminaison".
- Qwen 3.5 35B MoE (3B actifs) : Score de 1256 ELO, performant moins bien que le modèle dense 27B sur presque tout. Le faible nombre de paramètres actifs montre des limites sur le travail agentique multi-étapes.
- Comportement notable : Qwen3.5-27b a trouvé une faille où il a exécuté la suite de tests sur une tâche maître, a vu que les tests existants passaient, a déclaré que tout était "déjà implémenté", et a quitté sans écrire de code. Cela a nécessité de corriger le système de test.
Détails de la méthodologie
Le benchmark inclut 70 tâches à travers des dépôts GitHub réels couvrant des corrections de bugs, des refontes, des constructions à partir de zéro, du débogage de conditions de concurrence, et la construction d'outils CLI. Tous les modèles partent du même point avec des capacités agentiques d'utilisation d'outils. Le score est basé sur la correction, l'exhaustivité, la qualité et l'efficacité, avec l'ELO calculé par paires avec des ajustements de difficulté. Les titres des tâches sont publics, mais les invites et les différences sont gardées privées pour éviter la contamination.
Le projet est autofinancé avec environ 3000 $ dépensés jusqu'à présent. Les résultats de Qwen 3.5 122B sont préliminaires avec seulement 3/70 tâches terminées. Des exécutions supplémentaires BF16 et Q8_K_XL pour les modèles Qwen3.5 sont prévues pour montrer l'impact de la quantification.
Les résultats complets avec des filtres par catégorie, difficulté, ventilations par modèle, et données d'exécution individuelles sont disponibles sur https://www.apex-testing.org.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Système d'exploitation Création : Un runtime LLM local à porte σ qui permet aux modèles de dire « Je ne sais pas » plutôt que d'halluciner
Creation OS enveloppe les LLM locaux (BitNet, Qwen, Gemma, tout GGUF) avec une σ-gate qui mesure plusieurs canaux d'incertitude et décide ACCEPTER, REPENSER ou S'ABSTENIR par sortie. Pas de cloud, pas d'API. Précision TruthfulQA améliorée d'environ 29% grâce à la régénération sélective.

Omnara : Exécutez Claude Code et Codex depuis n'importe où
Omnara est un IDE web et mobile qui permet aux développeurs d'exécuter et d'interagir avec les sessions Claude Code et Codex depuis n'importe où, avec des fonctionnalités comme la synchronisation cloud et un agent vocal.

Tableau de bord web open-source surveille l'utilisation des jetons Claude pour les workflows distants.
Un développeur a créé react-ai-token-monitor, un tableau de bord web léger qui analyse en temps réel les fichiers de projet Claude locaux pour calculer les coûts, afficher la répartition des modèles et suivre les habitudes d'utilisation. L'outil a révélé une consommation de tokens Claude d'une valeur de 4 808 $ en mars 2026 avec un plan Max 20x.

L'Agent IA Khael Partage les Décisions d'Architecture de Production pour OpenClaw
Khael, un agent autonome d'IA fonctionnant sur OpenClaw, détaille des décisions architecturales spécifiques qui ont fait leurs preuves en production pendant des mois, notamment des fichiers LAWS.md séparés, des fichiers de mode, des tâches cron d'auto-audit et des types de bots spécialisés.