Évaluation du chatbot RAG : comment un balayage de modèle + des correctifs de récupération ont réduit les coûts de 79 % et amélioré la qualité de 19 %

✍️ OpenClawRadar📅 Publié: May 15, 2026🔗 Source
Évaluation du chatbot RAG : comment un balayage de modèle + des correctifs de récupération ont réduit les coûts de 79 % et amélioré la qualité de 19 %
Ad

Un utilisateur de Reddit a procédé à une évaluation complète d'un chatbot RAG de support client qui fonctionnait sur ChromaDB avec un seuil de similarité par défaut de 0,7 (distance cosinus) et utilisait Gemini 3.1 Flash Lite Preview pour la génération. Il a constaté que le modèle le plus cher était le moins performant et que plusieurs changements non évidents avaient un réel impact.

Les problèmes de récupération se font passer pour des problèmes de LLM

Le bot répondait « Je n'ai pas accès à des informations spécifiques sur les services de notre entreprise » lorsque les utilisateurs posaient des questions d'ouverture informelles comme « Hey, qu'est-ce que vous faites ? ». L'instinct était de modifier les prompts ou de changer de modèle, mais la cause première était la récupération : le seuil de similarité dans ChromaDB était fixé à 0,7 (distance cosinus, plus bas = plus similaire, donc en fait strict). Les ouvertures informelles ne produisaient pas d'embeddings suffisamment proches d'un chunk, donc aucun document n'était récupéré. La leçon : enregistrer le contexte réellement reçu par le LLM avant d'incriminer la génération. Si la récupération ne renvoie rien, aucun prompt engineering ne pourra y remédier.

Les évaluateurs heuristiques sont pires que rien

La correspondance de mots-clés et le comptage de références sources donnaient des chiffres sans corrélation avec la satisfaction des utilisateurs. L'auteur est passé à un juge LLM (Claude Haiku 4.5 via OpenRouter) notant la pertinence, l'exactitude, l'utilité et l'ensemble sur une échelle de 0 à 10. Coût : quelques centimes par exécution complète.

Ad

Dédupliquer les chunks

Deux tours de discussion contenaient trois chunks FAQ quasi identiques dans la fenêtre de contexte. L'ajout d'une vérification de chevauchement de tokens supérieur à 80 % provenant du même fichier source a nettoyé le contexte, réduit les tokens et arrêté une hallucination de noms de produits sur un tour.

Compromis d'ancrage plus strict

L'ajout d'une règle selon laquelle l'agent ne mentionne que des faits issus des documents récupérés a amélioré l'exactitude mais réduit l'utilité sur les tours où le knowledge manquait : le bot a commencé à dire « les docs ne précisent pas cela, contactez le support » au lieu de deviner. L'auteur note que c'est le bon choix pour un bot de support factuel, mais doit être fait consciemment.

Résultats du balayage de modèles

L'exécution du même harnais d'évaluation sur 5 modèles a montré que Gemma 4 26B obtenait un score de 7,88 contre 7,33 pour le Gemini 3.1 Flash Lite Preview original — et coûtait 75 % de moins par session. Mistral Small 3.2 était juste derrière. Nova Micro était le moins cher, mais ses réponses laconiques étaient pénalisées pour ne pas être exploitables. Globalement, la qualité est passée de 6,62 à 7,88 (+19 %) et le coût a chuté de 0,002420 $ à 0,000509 $ par session (−79 %).

L'ensemble de l'évaluation a été réalisée à l'aide de Neo AI Engineer, qui a construit le harnais d'évaluation, géré les exécutions avec points de contrôle, traité les problèmes de timeout et de limite de contexte, et consolidé les résultats. L'auteur a tout vérifié manuellement.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Correctif pour exécuter OpenClaw sur Android via proot Ubuntu : Détourner networkInterfaces() pour résoudre l'erreur uv_interface_addresses 13
Guides

Correctif pour exécuter OpenClaw sur Android via proot Ubuntu : Détourner networkInterfaces() pour résoudre l'erreur uv_interface_addresses 13

Un développeur partage une solution pour exécuter OpenClaw 2026.3.13 sur Android 16 via Termux et proot Ubuntu 25.10, où l'application plante avec 'uv_interface_addresses a retourné une erreur système inconnue 13'. La solution est un script de détournement JavaScript qui remplace os.networkInterfaces().

OpenClawRadar
Utilisateurs d'OpenClaw Docker : Épinglez au commit 0c926a2c5 pour corriger les extensions Discord et de salon défectueuses.
Guides

Utilisateurs d'OpenClaw Docker : Épinglez au commit 0c926a2c5 pour corriger les extensions Discord et de salon défectueuses.

Après avoir mis à jour OpenClaw via Docker, les extensions de canaux comme Discord, Signal et WhatsApp échouent avec des erreurs d'importation de modules. Le problème provient du commit d9c285e93 et d'un second bug spécifique à Docker. Utilisez le commit 0c926a2c5 pour une solution de contournement stable.

OpenClawRadar
Configuration des serveurs MCP dans l'interface Web llama-server : un guide pratique
Guides

Configuration des serveurs MCP dans l'interface Web llama-server : un guide pratique

Un utilisateur de Reddit partage des étapes spécifiques pour configurer des serveurs MCP dans l'interface web de llama-server, incluant l'installation de uv, la création d'un fichier config.json avec des définitions de serveurs, l'exécution de mcp-proxy et la modification des URL pour une intégration correcte.

OpenClawRadar
Un système de mémoire à 4 fichiers pour les agents OpenClaw sans plugins
Guides

Un système de mémoire à 4 fichiers pour les agents OpenClaw sans plugins

Un utilisateur de Reddit partage un système de mémoire pratique utilisant quatre fichiers markdown : USER.md pour l'identité, CONTEXT.md pour le travail actif, MEMORY.md pour les sujets structurés, et ARCHIVE.md pour les éléments terminés. L'approche aborde le problème de 'l'agent ne sait pas ce qu'il sait' grâce à une meilleure architecture de fichiers plutôt qu'à davantage de mémoire.

OpenClawRadar