Benchmark des Stratégies de Trading : Les Modèles d'IA Moins Chers Surpassent Claude Opus 4.6

Un utilisateur de Reddit a réalisé un benchmark comparant 10 grands modèles de langage différents sur leur capacité à développer des stratégies de trading. Les résultats ont montré que les modèles moins chers surpassaient systématiquement les options plus coûteuses, avec Claude Opus 4.6 qui n'a pas réussi à se classer dans le top quatre malgré un coût 10 fois supérieur à certains concurrents.
Modèles testés
- Claude Opus 4.6
- Gemini 3
- Gemini 3.1 Pro
- GPT-5.2
- Gemini Flash 3
- GPT-5-mini
- Kimi K2.5
- Minimax 2.5
Principales conclusions
Le benchmark a demandé à tous les modèles de "créer la meilleure stratégie de trading" en utilisant la même instruction. Des modèles comme Minimax 2.5 et Gemini 3.1 ont dominé le classement, tandis que les modèles d'Anthropic ont obtenu de mauvais résultats en comparaison. Kimi K2.5 a largement surpassé Claude dans cette compétition tout en coûtant 10 fois moins cher.
L'expérience a été menée trois fois pour garantir des résultats cohérents. L'auteur a noté qu'être bon en programmation ne se traduit pas nécessairement par de bonnes performances dans d'autres tâches comme le développement de stratégies.
Ce type de benchmarking spécialisé est utile pour les développeurs qui doivent sélectionner des modèles d'IA pour des tâches spécifiques au-delà de l'assistance générale en programmation. Les résultats suggèrent que la sélection des modèles devrait être spécifique à la tâche plutôt que basée uniquement sur la réputation générale ou le prix.
📖 Lire la source complète : r/ClaudeAI
👀 See Also

La refonte du codebase d'Autonoma sur 18 mois : leçons sur les tests, la dette technique et les Server Actions
Autonoma a jeté 1,5 an de code après être passé de 2 à 14 ingénieurs, citant l'absence de tests, TypeScript non strict et les limitations des Server Actions comme principales raisons de la réécriture.

FR v2.1.122 : Suppressions d'invites système, mise à jour de débogage et confiance accrue dans le calendrier
Claude Code CC v2.1.122 supprime le prompt autonome de la phase quatre en mode plan, améliore le repli du contexte de débogage du démon, et relève le seuil de confiance pour les offres de planification de 70 %+ à 85 %+.

Claude Code v2.1.90 ajoute la commande /powerup avec une fonctionnalité de découverte ludique
Claude Code v2.1.90 introduit une commande slash /powerup qui offre une intégration ludique avec 10 améliorations déblocables, chacune enseignant une fonctionnalité que la plupart des utilisateurs manquent. Le système comprend des démonstrations animées dans le terminal et une documentation détaillée avec des captures d'écran.

Claude Code v2.1.147 : Sessions épinglées, /code-review, et des dizaines de correctifs
Claude Code v2.1.147 introduit les sessions d'arrière-plan épinglées, renomme /simplify en /code-review avec niveaux d'effort et --comment, ainsi que des correctifs pour PowerShell, MCP, Windows, etc.