Benchmark Trading IA : Modèles Moins Chers Surpassent Claude Opus 4.6

Un utilisateur de Reddit a réalisé un benchmark comparant 10 grands modèles de langage différents sur leur capacité à développer des stratégies de trading. Les résultats ont montré que les modèles moins chers surpassaient systématiquement les options plus coûteuses, avec Claude Opus 4.6 qui n'a pas réussi à se classer dans le top quatre malgré un coût 10 fois supérieur à certains concurrents.

Modèles testés

Claude Opus 4.6
Gemini 3
Gemini 3.1 Pro
GPT-5.2
Gemini Flash 3
GPT-5-mini
Kimi K2.5
Minimax 2.5

Principales conclusions

Le benchmark a demandé à tous les modèles de "créer la meilleure stratégie de trading" en utilisant la même instruction. Des modèles comme Minimax 2.5 et Gemini 3.1 ont dominé le classement, tandis que les modèles d'Anthropic ont obtenu de mauvais résultats en comparaison. Kimi K2.5 a largement surpassé Claude dans cette compétition tout en coûtant 10 fois moins cher.

L'expérience a été menée trois fois pour garantir des résultats cohérents. L'auteur a noté qu'être bon en programmation ne se traduit pas nécessairement par de bonnes performances dans d'autres tâches comme le développement de stratégies.

Ce type de benchmarking spécialisé est utile pour les développeurs qui doivent sélectionner des modèles d'IA pour des tâches spécifiques au-delà de l'assistance générale en programmation. Les résultats suggèrent que la sélection des modèles devrait être spécifique à la tâche plutôt que basée uniquement sur la réputation générale ou le prix.

📖 Lire la source complète : r/ClaudeAI

Benchmark des Stratégies de Trading : Les Modèles d'IA Moins Chers Surpassent Claude Opus 4.6

Modèles testés

Principales conclusions

👀 See Also

Cowork Force le Moyen Effort en Dur et Ignore les Paramètres Utilisateur pour Claude Opus

Claude-Code v2.1.51 : Corrections de sécurité, améliorations des performances et nouvelle fonctionnalité de contrôle à distance

Promotion d'utilisation de mars d'Anthropic : Comment les heures creuses doublent les limites de Claude

Analyse de Claude Opus 4.7 : Intelligence de pointe, mais coût élevé et verbosité