Test RAG : coût par token trompeur

Un développeur a réalisé une comparaison de niveau production de trois modèles d'IA en utilisant des pipelines RAG identiques pour répondre à une requête client nuancée sur la conformité SOC 2. Le test a utilisé Claude Haiku 4.5, Amazon Nova Pro et Amazon Nova Lite avec la même configuration : deux bases vectorielles (documents produits et documents marketing/concurrentiels), 13 Architecture Decision Records comme contexte de référence, environ 49 000 tokens d'entrée de contexte récupéré par requête, des prompts système identiques et la même structure d'appel API Bedrock avec seulement l'ID du modèle modifié.

Configuration et résultats du test

La requête était : "Un client a posé une question sur la conformité SOC 2 — comment dois-je répondre ?" Tous les modèles ont reçu le même contexte RAG contenant un playbook complet avec des e-mails prêts à copier-coller, des gestionnaires d'objections, un positionnement concurrentiel, des réponses de conformité spécifiques au cadre et des garde-fous sur ce qu'il ne faut pas dire.

Résultats :

Nova Lite : 49 067 tokens d'entrée, 244 tokens de sortie, temps de réponse de 5,5 s, coût d'environ 0,003 $
Nova Pro : 49 067 tokens d'entrée, 368 tokens de sortie, temps de réponse de 13,5 s, coût d'environ 0,040 $
Haiku 4.5 : 53 674 tokens d'entrée, 1 534 tokens de sortie, temps de réponse de 15,6 s, coût de 0,049 $

Comparaison de la qualité des sorties

Malgré un contexte identique, les modèles ont produit des réponses radicalement différentes :

Nova Lite : A généré un e-mail générique de quatre paragraphes qui a correctement identifié le fait principal (déploiement dans votre compte, pas de rapport SOC 2 séparé) mais n'a inclus aucune gestion d'objection, positionnement concurrentiel ou nuance du contexte. S'est terminé par un commentaire méta sur l'adhésion aux ADR.
Nova Pro : A produit sept points à puces numérotés couvrant des aspects techniques comme la résidence des données, l'authentification, le contrôle d'accès, la surveillance, les correctifs, la gestion des secrets et la portée de la conformité. Techniquement précis mais ressemblant à de la documentation AWS collée avec un commentaire méta similaire.
Haiku 4.5 : A fourni un playbook complet avec une explication en langage clair, un e-mail prêt à copier-coller, un gestionnaire de résistance avec une analogie Terraform, des réponses spécifiques aux cadres pour HIPAA, PCI-DSS, SOX, FINRA, des garde-fous "ce qu'il ne faut PAS dire", des points de discussion prêts pour le CRM et un positionnement concurrentiel contre d'autres outils.

Conclusion clé

L'écart ne concernait pas les informations disponibles — tous les modèles avaient les mêmes ~49 000 tokens d'entrée contenant le playbook complet. La différence résidait dans ce que chaque modèle pouvait extraire et synthétiser. Nova Lite a extrait un fait, Nova Pro a organisé les faits en une liste, tandis qu'Haiku a synthétisé le contexte en une boîte à outils actionnable avec des questions de suivi anticipées.

La différence de coût entre Nova Pro et Haiku était de 0,009 $ par requête (moins d'un centime), mais l'écart de qualité des sorties était substantiel. Le modèle le moins cher par token produisait des réponses qui nécessiteraient 2-3 requêtes de suivi pour correspondre à la sortie en une seule passe d'Haiku, coûtant finalement plus cher en raison de l'utilisation répétée du pipeline RAG.

📖 Lire la source complète : r/ClaudeAI

Le test du pipeline RAG montre que le coût par token n'est pas la bonne métrique pour la sélection de modèle.

Configuration et résultats du test

Comparaison de la qualité des sorties

Conclusion clé

👀 See Also

Claude Cowork aide à construire un livre de philosophie de 200 000 mots avec 13 rôles d'IA et une mémoire persistante

Leçons pratiques de la construction d'un agent compagnon IA local permanent

Création de Drivesidekick : Une application de conduite avec Claude Code

Trois esprits : un cadre pour la collaboration entre un humain et deux agents d'IA