Top Modèles IA OpenRouter : Rapport Qualité-Prix vs Intelligence

Comparaison de l'intelligence et des tarifs des modèles

Un développeur a analysé les tarifs de l'API OpenRouter pour 16 modèles d'IA et a calculé des valeurs d'intelligence par dollar pour aider à sélectionner des modèles pour des tâches spécifiques. La métrique d'intelligence combine sept références : Artificial Analysis Intelligence Index, Agentic Index, Coding Index, Artificial Analysis Omnicience Index (rééchelonné de 0 à 100), GPDval-AA, Terminal-Bench Hard et t2-Bench Telecom.

Principales conclusions

L'analyse a identifié plusieurs modèles remarquables :

Meilleure intelligence : GPT-5.4 (58,8 d'intelligence, 2,50 $/M de tokens) et Gemini 3.1 Pro (58,6 d'intelligence, 2,00 $/M de tokens)
Meilleur rapport qualité-prix : MiMo-V2-Flash (39,9 d'intelligence, 0,09 $/M de tokens, score de valeur 443)
Modèles équilibrés : GLM-5, Kimi K2.5 et Gemini 3 Flash

Détails et capacités des modèles

L'ensemble de données complet comprend :

MiMo-V2-Flash : 39,9 d'intelligence, 0,09 $/M de tokens, valeur 443, texte uniquement
Step 3.5 Flash : 34,8 d'intelligence, 0,10 $/M de tokens, valeur 348, tâches textuelles rapides générales
Grok 4.1 Fast : 41,2 d'intelligence, 0,20 $/M de tokens, valeur 205, fenêtre de contexte de 2M, routage et extraction à haute vitesse
MiniMax M2.5 : 40,3 d'intelligence, 0,27 $/M de tokens, valeur 149, open-source, excellentes performances dans les tâches de codage réel
DeepSeek V3.2 : 34,6 d'intelligence, 0,25 $/M de tokens, valeur 138, solides capacités de codage et de logique, prend en charge les accès au cache de l'API
Kimi K2.5 : 45,8 d'intelligence, 0,45 $/M de tokens, valeur 101, fenêtre de contexte de 262K, connaissances générales étendues
Gemini 3 Flash : 47,7 d'intelligence, 0,50 $/M de tokens, valeur 95, multimodal avec prise en charge de l'entrée audio
GLM-4.7 : 31,6 d'intelligence, 0,38 $/M de tokens, valeur 83, génération de texte général
Qwen 3.5 : 41,1 d'intelligence, 0,60 $/M de tokens, valeur 68, solides performances globales, usage général
GLM-5 : 49,5 d'intelligence, 0,80 $/M de tokens, valeur 61, fenêtre de contexte de 200K, connaissances générales
Claude Haiku 4.5 : 36,5 d'intelligence, 1,00 $/M de tokens, valeur 36, rapide et économique, prise en charge de la réflexion étendue
GPT-5.3 : 55,9 d'intelligence, 1,75 $/M de tokens, valeur 32, raisonnement général et traitement de texte
GPT-5.2 : 50,8 d'intelligence, 1,75 $/M de tokens, valeur 29, excellent pour le codage + tâches agentiques
Gemini 3.1 Pro : 58,6 d'intelligence, 2,00 $/M de tokens, valeur 29, analyses multimodales, prise en charge de la sortie d'images
Grok 4.2 Beta : 49,6 d'intelligence, 2,00 $/M de tokens, valeur 25, raisonnement approfondi, base de connaissances étendue
GPT-5.4 : 58,8 d'intelligence, 2,50 $/M de tokens, valeur 24, niveaux de contexte variables (<272K / >272K), raisonnement de premier ordre
Claude Sonnet 4.6 : 52,3 d'intelligence, 3,00 $/M de tokens, valeur 17, modèle de travail, entraîné jusqu'en janvier 2026
Claude Opus 4.6 : 51,9 d'intelligence, 5,00 $/M de tokens, valeur 10, raisonnement de premier ordre, le plus performant pour le codage et l'ingénierie logicielle

Observations notables

L'analyse note que les modèles plus intelligents ont généralement des scores de valeur moins bons, mais cela peut ne pas refléter l'efficacité réelle. Par exemple, si Qwen 3.5 utilise 500 000 tokens et 30 minutes pour résoudre un problème de manière incorrecte tandis que Sonnet le résout correctement en un dixième du temps, Sonnet pourrait offrir un meilleur rapport qualité-prix malgré son score d'intelligence par dollar inférieur.

La fenêtre de contexte de 2M de Grok 4.1 lui confère un avantage en intelligence qui n'apparaîtra pas dans la plupart des cas d'utilisation. MiniMax 2.5 le surpasse sur toutes les métriques sauf la fenêtre de contexte.

GLM-5 marque le dernier modèle avant une baisse significative de la valeur (de 61 à 36 avec Claude Haiku 4.5) et serait presque aussi intelligent que GPT-5.2.

📖 Read the full source: r/openclaw