Hallucinations IA augmentent avec tokens : étude

Résultats des tests de performance de la fenêtre contextuelle

Un développeur a testé la dégradation de la qualité du contexte à travers différents comptes de tokens dans les agents d'IA, révélant des problèmes de performance significatifs à mesure que la taille du contexte augmente.

Principales conclusions des tests

Les tests ont mesuré plusieurs métriques critiques :

Taux d'hallucination par taille de contexte :
- 10 000 tokens : ~3 %
- 50 000 tokens : ~11 %
- 200 000 tokens : ~28 %
- 1 million de tokens : incertain, mais la tendance montre une dégradation croissante
Précision du rappel : Aucun modèle testé (y compris GPT-4, Claude ou les modèles locaux) n'a atteint 90 % de rappel sur les informations des 10 premiers tours une fois que le contexte a dépassé 50 000 tokens.
Efficacité des tokens : À 200 000 tokens, le pourcentage de contexte réellement pertinent pour la requête actuelle tombe en dessous de 12 % dans la plupart des tâches d'agent, ce qui signifie qu'environ 188 000 tokens ajoutent du bruit que le modèle doit raisonner autour.

Analyse du problème

Le problème semble être une famine d'attention plutôt qu'un oubli. Le contexte initial entre en compétition avec le contexte récent, le contexte récent l'emportant généralement en raison d'une pertinence positionnelle plus élevée. Cela provoque une dilution progressive des contraintes définies en début de session (comme "utiliser PostgreSQL, pas d'ORM") à mesure que plus de contexte s'accumule.

Au tour 89 avec 200 000 tokens, l'attention du modèle est tellement répartie sur le contexte que les contraintes initiales disparaissent effectivement.

Solutions actuelles et limites

De nombreux développeurs ajoutent des bases de données vectorielles pour récupérer des "souvenirs" pertinents, ce qui aide quelque peu. Cependant, cette approche récupère un contenu sémantiquement similaire plutôt que ce dont l'agent a besoin pour un raisonnement correct. Par exemple, "utiliser PostgreSQL" n'est pas sémantiquement similaire à "écris-moi un point de terminaison de connexion" même s'il doit être dans le contexte pour une exécution appropriée.

Le développeur cherche des retours sur la correspondance de ces résultats avec les expériences en production et sur les approches qui ont réellement fonctionné pour d'autres.

📖 Lire la Source complète : r/LocalLLaMA