Le test du pipeline RAG montre que le coût par token n'est pas la bonne métrique pour la sélection de modèle.

Un développeur a réalisé une comparaison de niveau production de trois modèles d'IA en utilisant des pipelines RAG identiques pour répondre à une requête client nuancée sur la conformité SOC 2. Le test a utilisé Claude Haiku 4.5, Amazon Nova Pro et Amazon Nova Lite avec la même configuration : deux bases vectorielles (documents produits et documents marketing/concurrentiels), 13 Architecture Decision Records comme contexte de référence, environ 49 000 tokens d'entrée de contexte récupéré par requête, des prompts système identiques et la même structure d'appel API Bedrock avec seulement l'ID du modèle modifié.
Configuration et résultats du test
La requête était : "Un client a posé une question sur la conformité SOC 2 — comment dois-je répondre ?" Tous les modèles ont reçu le même contexte RAG contenant un playbook complet avec des e-mails prêts à copier-coller, des gestionnaires d'objections, un positionnement concurrentiel, des réponses de conformité spécifiques au cadre et des garde-fous sur ce qu'il ne faut pas dire.
Résultats :
- Nova Lite : 49 067 tokens d'entrée, 244 tokens de sortie, temps de réponse de 5,5 s, coût d'environ 0,003 $
- Nova Pro : 49 067 tokens d'entrée, 368 tokens de sortie, temps de réponse de 13,5 s, coût d'environ 0,040 $
- Haiku 4.5 : 53 674 tokens d'entrée, 1 534 tokens de sortie, temps de réponse de 15,6 s, coût de 0,049 $
Comparaison de la qualité des sorties
Malgré un contexte identique, les modèles ont produit des réponses radicalement différentes :
- Nova Lite : A généré un e-mail générique de quatre paragraphes qui a correctement identifié le fait principal (déploiement dans votre compte, pas de rapport SOC 2 séparé) mais n'a inclus aucune gestion d'objection, positionnement concurrentiel ou nuance du contexte. S'est terminé par un commentaire méta sur l'adhésion aux ADR.
- Nova Pro : A produit sept points à puces numérotés couvrant des aspects techniques comme la résidence des données, l'authentification, le contrôle d'accès, la surveillance, les correctifs, la gestion des secrets et la portée de la conformité. Techniquement précis mais ressemblant à de la documentation AWS collée avec un commentaire méta similaire.
- Haiku 4.5 : A fourni un playbook complet avec une explication en langage clair, un e-mail prêt à copier-coller, un gestionnaire de résistance avec une analogie Terraform, des réponses spécifiques aux cadres pour HIPAA, PCI-DSS, SOX, FINRA, des garde-fous "ce qu'il ne faut PAS dire", des points de discussion prêts pour le CRM et un positionnement concurrentiel contre d'autres outils.
Conclusion clé
L'écart ne concernait pas les informations disponibles — tous les modèles avaient les mêmes ~49 000 tokens d'entrée contenant le playbook complet. La différence résidait dans ce que chaque modèle pouvait extraire et synthétiser. Nova Lite a extrait un fait, Nova Pro a organisé les faits en une liste, tandis qu'Haiku a synthétisé le contexte en une boîte à outils actionnable avec des questions de suivi anticipées.
La différence de coût entre Nova Pro et Haiku était de 0,009 $ par requête (moins d'un centime), mais l'écart de qualité des sorties était substantiel. Le modèle le moins cher par token produisait des réponses qui nécessiteraient 2-3 requêtes de suivi pour correspondre à la sortie en une seule passe d'Haiku, coûtant finalement plus cher en raison de l'utilisation répétée du pipeline RAG.
📖 Lire la source complète : r/ClaudeAI
👀 See Also

Flux de travail pratique de planification de voyage par IA : ce qui fonctionne et ce qui ne fonctionne pas
Un développeur partage son expérience d'un an avec ChatGPT, Claude et Perplexity pour planifier des voyages dans six pays, détaillant des points forts spécifiques comme la création d'itinéraires et la précision budgétaire, des points faibles incluant des horaires d'ouverture incorrects, et un processus de vérification en cinq étapes.

L'agent Forge corrige de manière autonome un bug GitHub en utilisant l'IA Claude.
L'agent Forge d'un développeur a détecté un rapport de bug GitHub, a déclenché un pipeline, a utilisé Claude AI pour analyser et corriger le problème, et a ouvert une PR—le tout sans intervention humaine pendant que le développeur dormait.

Création d'un Bot de Surveillance pour Chats sur Discord avec ESP32-S3, MiniClaw et l'IA Multimodale
Un développeur a créé un bot Discord utilisant un ESP32-S3 Sense avec MiniClaw qui capture des images ou de l'audio de son chat, les envoie au modèle VLM-4V de Zhipu AI et renvoie des descriptions en langage naturel au lieu d'alertes de mouvement génériques.

Utiliser l'IA pour améliorer les outils d'entreprise existants comme Jira
Un développeur a utilisé l'extension Chrome de Claude pour créer une barre latérale Jira affichant des graphiques de dépendances inter-projets en seulement 4 invites, travaillant directement dans l'interface Jira existante.