Apprentissage fédéré ouvert avec journaux de session d'agents de codage

Lorsque vous utilisez des agents de codage comme Claude Code ou Codex CLI en mode agent, ils enregistrent localement sur votre machine des données de session complètes. Ces journaux capturent la boucle d'interaction complète : votre tâche initiale, le processus de raisonnement du modèle, chaque appel d'outil effectué, chaque réponse de l'environnement, chaque erreur rencontrée et chaque nouvelle tentative. Cela crée des tuples complets (état → action → récompense → état suivant) — le format exact de données dont les chercheurs en apprentissage par renforcement ont besoin.

Ce que contiennent les journaux

L'auteur de la source a vérifié ses propres machines et a trouvé :

Mac Mini : ~/.claude/projects/ contenant 3,1 Go répartis sur 1103 fichiers provenant de 574 sessions agentiques
MacBook : ~/.codex/sessions/ contenant 2,4 Go répartis sur 3530 fichiers provenant de 79 sessions agentiques
MacBook : ~/.claude/projects/ contenant 652 Mo répartis sur 316 fichiers provenant de 99 sessions agentiques

Au total, ils ont identifié 775 sessions avec de vrais appels d'outils contenant environ 41 millions de tokens. Extrapolé à des milliers de développeurs, cela pourrait représenter des centaines de milliards de tokens de données de trajectoire agentique réelles — des données qui n'ont actuellement aucun équivalent ouvert comme le jeu de données The Pile.

Pourquoi ces données sont importantes

L'environnement fournit des signaux de retour clairs : code de sortie 0 ou non, tests réussis ou non. Cela offre le signal d'entraînement manquant pour le raisonnement causal, la récupération d'erreurs et la planification à long terme — des domaines où les modèles actuels ont des difficultés. Les grands laboratoires d'IA collectent déjà ces données en interne pour entraîner leurs modèles propriétaires, mais il n'y a pas d'équivalent ouvert car les données sont fragmentées sur les machines individuelles des développeurs.

La proposition : L'apprentissage fédéré

Le post propose d'utiliser l'apprentissage fédéré où vos données ne quittent jamais votre machine. Vous entraîneriez un petit adaptateur LoRA localement, partageriez uniquement les poids avec du bruit de confidentialité différentielle ajouté, et recevriez en retour un modèle global amélioré. Chacun contribue au calcul et au signal sans exposer ses données brutes. Alternativement, la communauté pourrait anonymiser les données pour créer un jeu de données pour affiner les modèles.

Étapes pratiques

Pour conserver vos journaux (Claude Code les supprime après 30 jours par défaut) :

echo '{"cleanupPeriodDays": 36500}' > ~/.claude/settings.json

Pour vérifier ce qui se trouve sur vos propres machines :

du -sh ~/.codex/sessions/ 2>/dev/null
du -sh ~/.claude/projects/ 2>/dev/null
find ~/.codex/sessions/ -name "*.jsonl" | wc -l
find ~/.claude/projects/ -name "*.jsonl" | wc -l

Le post Reddit encourage les développeurs à partager leurs chiffres dans les commentaires pour évaluer l'échelle réelle des données inutilisées dans la communauté, avec pour objectif de construire un équivalent ouvert s'il y a suffisamment d'intérêt.

📖 Lire la source complète : r/LocalLLaMA