Test de 8 Modèles d'IA de Codage sur TypeScript en Conditions Réelles

Comparaison pratique de modèles d'IA de codage

Un développeur a réalisé une comparaison pratique de 8 modèles d'IA de codage en leur faisant implémenter la même fonctionnalité réelle dans un projet TypeScript existant. L'objectif était d'aller au-delà des benchmarks synthétiques et de voir comment les modèles se comportent lorsqu'ils travaillent avec des bases de code réelles.

Configuration du test

Le projet utilisé était OpenCode Telegram Bot, un bot Telegram open-source en TypeScript construit avec le framework grammY qui fournit une interface Telegram aux capacités d'Opencode. Le bot prend en charge l'i18n et dispose d'une couverture de tests existante.

La tâche consistait à implémenter une commande /rename qui renomme la session de travail en cours. Cette fonctionnalité touche toutes les couches de l'application et nécessite de gérer plusieurs cas limites. L'implémentation originale avait été annulée, fournissant une base propre pour l'évaluation.

Chaque modèle a reçu la même instruction en deux phases : d'abord en mode planification (étude de la base de code et élaboration d'un plan d'implémentation), puis en mode codage. Tous les tests ont été réalisés avec Opencode en activant le mode "réflexion" et le raisonnement.

Modèles testés

Claude 4.6 Sonnet (3,00 $ entrée/15,00 $ sortie par million de tokens)
Claude 4.6 Opus (5,00 $/25,00 $)
GLM 5 (1,00 $/3,20 $)
Kimi K2.5 (0,60 $/3,00 $)
MiniMax M2.5 (0,30 $/1,20 $)
GPT 5.3 Codex (élevé) (1,75 $/14,00 $)
GPT 5.4 (élevé) (2,50 $/15,00 $)
Gemini 3.1 Pro (élevé) (2,00 $/12,00 $)

Les données de l'Index de Codage et de l'Index Agentique proviennent d'Artificial Analysis. Tous les modèles ont été accédés via OpenCode Zen, un fournisseur de l'équipe OpenCode qui teste les modèles pour leur compatibilité avec leur outil.

Méthodologie d'évaluation

Quatre métriques ont été utilisées :

Coût API ($) - Coût total de tous les appels API pendant la tâche, y compris les sous-agents
Temps d'exécution (mm:ss) - Temps de travail total du modèle
Justesse de l'implémentation (0-10) - Dans quelle mesure le comportement correspond aux exigences et aux cas limites
Qualité technique (0-10) - Qualité d'ingénierie de la solution

Pour les scores de justesse et de qualité, l'implémentation existante de /rename a été utilisée pour dériver des critères d'évaluation détaillés couvrant l'intégration des commandes, le flux principal, la gestion des erreurs, l'annulation, l'i18n, la documentation, l'architecture, la gestion de l'état, les tests et la dette technique. L'évaluation a été réalisée par GPT-5.3 Codex selon une grille structurée, avec plusieurs exécutions montrant une variance de ±0,5 point.

Principales conclusions

Les résultats ont montré que GPT-5.4 (élevé) a obtenu le score de justesse d'implémentation le plus élevé avec 57 sur 69 sur l'Index Agentique. GLM 5 a démontré un excellent rapport coût-performance à 1,00 $/3,20 $ par million de tokens avec un Index de Codage de 53. L'expérience a révélé que les modèles open-source peu coûteux venant de Chine se rapprochent des modèles propriétaires dans les tâches de codage pratiques, bien que les benchmarks seuls ne racontent pas toute l'histoire.

📖 Lire la source complète : r/LocalLLaMA

Comparaison de 8 modèles d'IA de codage sur l'implémentation d'une fonctionnalité TypeScript en conditions réelles

Comparaison pratique de modèles d'IA de codage

Configuration du test

Modèles testés

Méthodologie d'évaluation

Principales conclusions

👀 See Also

P2PCLAW : Un réseau pair-à-pair permettant aux agents d'IA de publier des sciences formellement vérifiées

Plugin Claude Code analyse localement le gaspillage de jetons et les anomalies

OpenClaw Plugin de Mémoire Partagée : Coordination Multi-Agents Basée sur SQLite

AnyClaw : Ubuntu 24.04 avec accès au matériel Android et agent IA pour le développement en terminal