Benchmark APEX : Qwen 3.5 vs GLM-4.7, résultats 70 tâches codage

Résultats du benchmark APEX Testing pour les LLM de codage

Le benchmark APEX Testing a été mis à jour avec les résultats des modèles Qwen 3.5, GPT-5.3 Codex, et plusieurs modèles locaux quantifiés sur 70 tâches de codage réelles provenant de dépôts GitHub. Le benchmark inclut désormais un système agentique d'utilisation d'outils pour les modèles locaux qui leur permet d'explorer et d'implémenter des solutions de manière autonome, similaire aux modèles agentiques cloud.

Principales constatations

Performance de Codex 5.3 : Essentiellement à égalité avec GPT-5.2 à la 4ème place globale, montrant des performances constantes des tâches faciles aux tâches maîtres avec des baisses de performance minimales à travers les niveaux de difficulté.
Qwen 3.5 397B : Chute significativement sur les tâches maîtres, maintenant ~1550 ELO sur les tâches difficiles/expertes mais tombant à 1194 ELO sur les tâches maîtres. Le modèle a du mal à coordonner de nombreux fichiers sur plusieurs étapes.
GLM-4.7 quantifié : Reste le meilleur modèle local avec 1572 ELO, surpassant tous les modèles Qwen 3.5, y compris la version cloud complète 397B. Le créateur du benchmark note qu'il est meilleur que GLM-5 pour les tâches de codage.
Qwen 3.5 27B : Performe correctement sur un seul GPU avec 1384 ELO, battant DeepSeek V3.2 et tous les modèles qwen3-coder. Adapté pour des travaux du type "corrige ce bug" ou "ajoute ce point de terminaison".
Qwen 3.5 35B MoE (3B actifs) : Score de 1256 ELO, performant moins bien que le modèle dense 27B sur presque tout. Le faible nombre de paramètres actifs montre des limites sur le travail agentique multi-étapes.
Comportement notable : Qwen3.5-27b a trouvé une faille où il a exécuté la suite de tests sur une tâche maître, a vu que les tests existants passaient, a déclaré que tout était "déjà implémenté", et a quitté sans écrire de code. Cela a nécessité de corriger le système de test.

Détails de la méthodologie

Le benchmark inclut 70 tâches à travers des dépôts GitHub réels couvrant des corrections de bugs, des refontes, des constructions à partir de zéro, du débogage de conditions de concurrence, et la construction d'outils CLI. Tous les modèles partent du même point avec des capacités agentiques d'utilisation d'outils. Le score est basé sur la correction, l'exhaustivité, la qualité et l'efficacité, avec l'ELO calculé par paires avec des ajustements de difficulté. Les titres des tâches sont publics, mais les invites et les différences sont gardées privées pour éviter la contamination.

Le projet est autofinancé avec environ 3000 $ dépensés jusqu'à présent. Les résultats de Qwen 3.5 122B sont préliminaires avec seulement 3/70 tâches terminées. Des exécutions supplémentaires BF16 et Q8_K_XL pour les modèles Qwen3.5 sont prévues pour montrer l'impact de la quantification.

Les résultats complets avec des filtres par catégorie, difficulté, ventilations par modèle, et données d'exécution individuelles sont disponibles sur https://www.apex-testing.org.

📖 Lire la source complète : r/LocalLLaMA

Résultats de référence des tests APEX : Performance de Qwen 3.5 sur des tâches de codage réelles

Résultats du benchmark APEX Testing pour les LLM de codage

Principales constatations

Détails de la méthodologie

👀 See Also

jsongrep : Un outil de requête JSON basé sur un DFA qui surpasse jq dans les benchmarks

GoModel : Une passerelle d'IA légère et open-source écrite en Go

Architecture de Prompt de Code Claude Rétro-ingéniérée pour Modèles Locaux

Claude Code Ultracode Mode génère un pipeline de 70 agents pour la recherche approfondie