Techniques pratiques pour réduire la dérive d'état dans les agents IA multi-étapes

Identifier le problème
Lors de la construction de flux de travail multi-étapes ou multi-agents, un problème courant est que les choses fonctionnent isolément mais échouent entre les étapes. Les symptômes incluent :
- La même entrée produisant des sorties différentes entre les exécutions
- Les agents « oublient » les décisions antérieures
- Le débogage devient presque impossible
Initialement, ces problèmes étaient attribués à des défauts de prompt, à l'aléa de la température, ou à une mauvaise récupération, mais la cause racine était la dérive d'état.
Solutions pratiques qui ont fonctionné
Arrêter de se fier au « contexte le plus récent »
La plupart des configurations font que l'étape N lit le contexte existant à l'instant présent. Le problème est que ce contexte est instable—surtout avec des étapes parallèles ou des mises à jour asynchrones.
Introduire des lectures basées sur des instantanés
Au lieu de lire « l'état actuel », chaque étape lit à partir d'un instantané figé. Par exemple, l'étape 3 ne lit pas la « mémoire actuelle »—elle lit l'instantané v2 (fixe). Cela rend l'exécution déterministe.
Rendre les écritures en mode ajout uniquement
Au lieu de modifier une mémoire partagée, chaque étape écrit une nouvelle version sans écrasement. Ainsi, v2 → étape → produit v3, puis v3 → étape suivante → produit v4. Cela permet :
- La relecture des flux
- Le débogage précis des échecs
- La comparaison des exécutions
Séparer « état » et « contexte »
Cette distinction a été cruciale. Maintenant, traitez :
- État = structuré, persistant (décisions, sorties, variables)
- Contexte = temporaire (ce que le modèle voit par étape)
Ne les mélangez pas.
Garder l'état minimal et structuré
Au lieu de vider l'historique complet du chat, stockez des éléments comme :
- Objectif
- Étape actuelle
- Sorties jusqu'à présent
- Décisions prises
Tout le reste est dérivé si nécessaire.
Utiliser la température stratégiquement
La température n'était pas le problème principal. Ce qui a mieux fonctionné :
- Basse température (0–0,3) pour les étapes modifiant l'état
- Température plus élevée uniquement pour les étapes « créatives » terminales
Résultats
Après la mise en œuvre de ces changements :
- Les exécutions sont devenues reproductibles
- La coordination multi-agents s'est améliorée
- Le débogage est passé de la conjecture au traçable
L'auteur demande comment les autres gèrent cela : reconstruire l'état à partir de l'historique, utiliser la récupération vectorielle, stocker un état structuré explicite, ou autre chose ?
📖 Read the full source: r/LocalLLaMA
👀 See Also

Chasse aux bugs : plantages de WireGuard et inadéquation MTU dans GKE
Les ingénieurs de Lovable ont retracé des erreurs utilisateur à des crashs d'anetd dus à une panique d'accès concurrent à une map dans l'intégration WireGuard de Google, puis ont découvert un second problème de MTU après la désactivation du chiffrement.

Qwen3.5-397B MoE fonctionne avec 14 Go de RAM via un chargement d'expert paginé sur M1 Ultra
Le moteur Paged MoE ne conserve que 20 experts en mémoire et charge paresseusement le reste depuis le SSD, faisant tourner un modèle de 397B (209 Go) sur un Mac Studio de 64 Go avec 1,59 tok/s et 14 Go de RAM de pointe. Comprend des benchmarks de modèles plus petits.

Optimisation d'AutoResearch sur RTX 5090 : Ce qui a échoué et ce qui a fonctionné
Un développeur partage des détails de configuration spécifiques pour exécuter AutoResearch sur une configuration RTX 5090/Blackwell, y compris les approches qui ont échoué, semblaient fonctionnelles mais performaient mal, et la configuration fonctionnelle qui a obtenu des résultats stables avec TOTAL_BATCH_SIZE=2**17 et TIME_BUDGET=1200.

Maximiser les capacités des agents d'IA dans OpenClaw
L'IA d'OpenClaw peut être optimisée en sélectionnant le bon modèle et en fournissant un contexte système spécifique. Les modèles Qwen excellent dans l'utilisation d'outils, essentielle pour les flux de travail autonomes.