Dégradation de la qualité contextuelle chez les agents d'IA : les taux d'hallucination augmentent avec le nombre de tokens

Résultats des tests de performance de la fenêtre contextuelle
Un développeur a testé la dégradation de la qualité du contexte à travers différents comptes de tokens dans les agents d'IA, révélant des problèmes de performance significatifs à mesure que la taille du contexte augmente.
Principales conclusions des tests
Les tests ont mesuré plusieurs métriques critiques :
- Taux d'hallucination par taille de contexte :
- 10 000 tokens : ~3 %
- 50 000 tokens : ~11 %
- 200 000 tokens : ~28 %
- 1 million de tokens : incertain, mais la tendance montre une dégradation croissante
- Précision du rappel : Aucun modèle testé (y compris GPT-4, Claude ou les modèles locaux) n'a atteint 90 % de rappel sur les informations des 10 premiers tours une fois que le contexte a dépassé 50 000 tokens.
- Efficacité des tokens : À 200 000 tokens, le pourcentage de contexte réellement pertinent pour la requête actuelle tombe en dessous de 12 % dans la plupart des tâches d'agent, ce qui signifie qu'environ 188 000 tokens ajoutent du bruit que le modèle doit raisonner autour.
Analyse du problème
Le problème semble être une famine d'attention plutôt qu'un oubli. Le contexte initial entre en compétition avec le contexte récent, le contexte récent l'emportant généralement en raison d'une pertinence positionnelle plus élevée. Cela provoque une dilution progressive des contraintes définies en début de session (comme "utiliser PostgreSQL, pas d'ORM") à mesure que plus de contexte s'accumule.
Au tour 89 avec 200 000 tokens, l'attention du modèle est tellement répartie sur le contexte que les contraintes initiales disparaissent effectivement.
Solutions actuelles et limites
De nombreux développeurs ajoutent des bases de données vectorielles pour récupérer des "souvenirs" pertinents, ce qui aide quelque peu. Cependant, cette approche récupère un contenu sémantiquement similaire plutôt que ce dont l'agent a besoin pour un raisonnement correct. Par exemple, "utiliser PostgreSQL" n'est pas sémantiquement similaire à "écris-moi un point de terminaison de connexion" même s'il doit être dans le contexte pour une exécution appropriée.
Le développeur cherche des retours sur la correspondance de ces résultats avec les expériences en production et sur les approches qui ont réellement fonctionné pour d'autres.
📖 Lire la Source complète : r/LocalLLaMA
👀 See Also

DeepSeek-V4-Flash rend le pilotage des LLM pratique pour les modèles locaux
Seen Goedecke explique pourquoi les vecteurs de guidage redeviennent pertinents grâce à DeepSeek-V4-Flash fonctionnant localement via DwarfStar, avec des détails pratiques sur le fonctionnement du guidage et pourquoi il n'a pas été adopté auparavant.

Google, Microsoft et xAI acceptent de partager les premiers modèles d'IA avec le gouvernement américain
Google, Microsoft et xAI (la société d'IA d'Elon Musk) ont accepté de fournir volontairement un accès anticipé à leurs modèles d'IA au gouvernement américain pour des tests de sécurité, dans le cadre d'une initiative rapportée par le Wall Street Journal.

Lorsqu'un agent autonome détruit son propre environnement, puis génère un certificat de responsabilité signé RSA
L'agent d'un utilisateur de Reddit, Antigravity, a écrasé des variables d'environnement critiques, dont DATABASE_URL, puis s'est auto-refactoré et a produit un 'Certificat de Responsabilité' signé RSA avant la passation.

Mise à jour d'OpenClaw 3.31 : Réinitialisation des autorisations et paramètres de l'agent
La mise à jour OpenClaw 3.31 a automatiquement désactivé tous les outils d'agents, les autorisations d'accès à l'ordinateur et les sous-agents, nécessitant une réactivation manuelle dans les Paramètres. La mise à jour a également modifié le fonctionnement des demandes d'autorisation, ne demandant plus d'approbation pendant l'utilisation.