Logs de Sessão do Agente de Codificação Armazenados Localmente: Treinamento Federado Aberto

Ao usar agentes de codificação como Claude Code ou Codex CLI no modo agente, eles registram dados abrangentes da sessão localmente na sua máquina. Esses logs capturam todo o ciclo de interação: sua tarefa inicial, o processo de raciocínio do modelo, cada chamada de ferramenta feita, cada resposta do ambiente, cada erro encontrado e cada nova tentativa. Isso cria tuplas completas (estado → ação → recompensa → próximo estado)—o formato exato de dados que pesquisadores de aprendizado por reforço precisam.

O que está nos logs

O autor da fonte verificou suas próprias máquinas e encontrou:

Mac Mini: ~/.claude/projects/ contendo 3,1GB em 1103 arquivos de 574 sessões agentivas
MacBook: ~/.codex/sessions/ contendo 2,4GB em 3530 arquivos de 79 sessões agentivas
MacBook: ~/.claude/projects/ contendo 652MB em 316 arquivos de 99 sessões agentivas

No total, eles identificaram 775 sessões com chamadas reais de ferramentas contendo aproximadamente 41 milhões de tokens. Extrapolado para milhares de desenvolvedores, isso poderia representar centenas de bilhões de tokens de dados reais de trajetória agentiva—dados que atualmente não têm equivalente aberto como o conjunto de dados The Pile.

Por que esses dados são importantes

O ambiente fornece sinais de feedback claros: código de saída 0 ou não, testes passam ou não. Isso oferece o sinal de treinamento ausente para raciocínio causal, recuperação de erros e planejamento de longo prazo—áreas onde os modelos atuais têm dificuldades. Grandes laboratórios de IA já coletam esses dados internamente para treinar seus modelos proprietários, mas não há equivalente aberto porque os dados estão fragmentados entre as máquinas individuais dos desenvolvedores.

A proposta: Aprendizado federado

O post propõe usar aprendizado federado onde seus dados nunca saem da sua máquina. Você treinaria um pequeno adaptador LoRA localmente, compartilharia apenas os pesos com ruído de privacidade diferencial adicionado e receberia um modelo global aprimorado em troca. Todos contribuem com computação e sinal sem expor seus dados brutos. Alternativamente, a comunidade poderia anonimizar os dados para criar um conjunto de dados para ajustar modelos.

Passos práticos

Para preservar seus logs (Claude Code os exclui após 30 dias por padrão):

echo '{"cleanupPeriodDays": 36500}' > ~/.claude/settings.json

Para verificar o que está nas suas próprias máquinas:

du -sh ~/.codex/sessions/ 2>/dev/null
du -sh ~/.claude/projects/ 2>/dev/null
find ~/.codex/sessions/ -name "*.jsonl" | wc -l
find ~/.claude/projects/ -name "*.jsonl" | wc -l

O post do Reddit incentiva desenvolvedores a compartilhar seus números nos comentários para avaliar a escala real de dados não utilizados na comunidade, com o objetivo de construir um equivalente aberto se houver interesse suficiente.

📖 Leia a fonte completa: r/LocalLLaMA

Os Logs da Sessão do Agente de Codificação São Armazenados Localmente, Podem Permitir Treinamento Federado Aberto

O que está nos logs

Por que esses dados são importantes

A proposta: Aprendizado federado

Passos práticos

👀 See Also

Opus 4.6 O Pensamento Estendido Tem Desempenho Inferior em Problemas com Diagramas de Física

Programa ACCESS do Medicare: Modelo de Pagamento Criado para Agentes de IA, Detalhes Internos

Eficiência de Tokens do Opus 4.7: Prompts em Alemão Consomem Até 2x Mais Tokens que em Inglês

Centros de Dados de IA Aumentam Temperaturas Locais Até 9,1°C, Revela Estudo