Os Logs da Sessão do Agente de Codificação São Armazenados Localmente, Podem Permitir Treinamento Federado Aberto

✍️ OpenClawRadar📅 Publicado: February 25, 2026🔗 Source
Os Logs da Sessão do Agente de Codificação São Armazenados Localmente, Podem Permitir Treinamento Federado Aberto
Ad

Ao usar agentes de codificação como Claude Code ou Codex CLI no modo agente, eles registram dados abrangentes da sessão localmente na sua máquina. Esses logs capturam todo o ciclo de interação: sua tarefa inicial, o processo de raciocínio do modelo, cada chamada de ferramenta feita, cada resposta do ambiente, cada erro encontrado e cada nova tentativa. Isso cria tuplas completas (estado → ação → recompensa → próximo estado)—o formato exato de dados que pesquisadores de aprendizado por reforço precisam.

O que está nos logs

O autor da fonte verificou suas próprias máquinas e encontrou:

  • Mac Mini: ~/.claude/projects/ contendo 3,1GB em 1103 arquivos de 574 sessões agentivas
  • MacBook: ~/.codex/sessions/ contendo 2,4GB em 3530 arquivos de 79 sessões agentivas
  • MacBook: ~/.claude/projects/ contendo 652MB em 316 arquivos de 99 sessões agentivas

No total, eles identificaram 775 sessões com chamadas reais de ferramentas contendo aproximadamente 41 milhões de tokens. Extrapolado para milhares de desenvolvedores, isso poderia representar centenas de bilhões de tokens de dados reais de trajetória agentiva—dados que atualmente não têm equivalente aberto como o conjunto de dados The Pile.

Por que esses dados são importantes

O ambiente fornece sinais de feedback claros: código de saída 0 ou não, testes passam ou não. Isso oferece o sinal de treinamento ausente para raciocínio causal, recuperação de erros e planejamento de longo prazo—áreas onde os modelos atuais têm dificuldades. Grandes laboratórios de IA já coletam esses dados internamente para treinar seus modelos proprietários, mas não há equivalente aberto porque os dados estão fragmentados entre as máquinas individuais dos desenvolvedores.

Ad

A proposta: Aprendizado federado

O post propõe usar aprendizado federado onde seus dados nunca saem da sua máquina. Você treinaria um pequeno adaptador LoRA localmente, compartilharia apenas os pesos com ruído de privacidade diferencial adicionado e receberia um modelo global aprimorado em troca. Todos contribuem com computação e sinal sem expor seus dados brutos. Alternativamente, a comunidade poderia anonimizar os dados para criar um conjunto de dados para ajustar modelos.

Passos práticos

Para preservar seus logs (Claude Code os exclui após 30 dias por padrão):

echo '{"cleanupPeriodDays": 36500}' > ~/.claude/settings.json

Para verificar o que está nas suas próprias máquinas:

du -sh ~/.codex/sessions/ 2>/dev/null
du -sh ~/.claude/projects/ 2>/dev/null
find ~/.codex/sessions/ -name "*.jsonl" | wc -l
find ~/.claude/projects/ -name "*.jsonl" | wc -l

O post do Reddit incentiva desenvolvedores a compartilhar seus números nos comentários para avaliar a escala real de dados não utilizados na comunidade, com o objetivo de construir um equivalente aberto se houver interesse suficiente.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Tokenmaxxing é o Novo Cronômetro: Por que sua Política de IA Precisa Ser Coerente
News

Tokenmaxxing é o Novo Cronômetro: Por que sua Política de IA Precisa Ser Coerente

Brian Meeker argumenta contra métricas de vaidade como tokenmaxxing e compartilha a política de IA de quatro pontos de sua equipe: sem obrigatoriedade, entenda o código gerado, sobreviva sem ferramentas de IA, importe-se com colegas e clientes.

OpenClawRadar
Trabalhadores do Google DeepMind votam pela sindicalização devido a acordos de IA militar
News

Trabalhadores do Google DeepMind votam pela sindicalização devido a acordos de IA militar

Funcionários do Google DeepMind em Londres votaram para se sindicalizar, exigindo que o Google interrompa contratos de IA com os militares dos EUA e de Israel, citando preocupações com a remoção de diretrizes éticas.

OpenClawRadar
Analisando a Queima de Tokens da Janela de Contexto de 1M do Claude: Dados Mostram Crescimento Ilimitado e Acúmulo de Falhas de Cache
News

Analisando a Queima de Tokens da Janela de Contexto de 1M do Claude: Dados Mostram Crescimento Ilimitado e Acúmulo de Falhas de Cache

Análise da janela de contexto de 1 milhão do Claude revela dois fatores combinados que causam consumo rápido de tokens: crescimento ilimitado do contexto sem compactação automática e falhas caras de cache em tamanhos de contexto maiores. O autor fornece um script Python para analisar o uso pessoal de tokens a partir de arquivos de sessão JSONL.

OpenClawRadar
sseanliu/VisionClaw traz Assistência de IA em Tempo Real para os Óculos Inteligentes Meta Ray-Ban
News

sseanliu/VisionClaw traz Assistência de IA em Tempo Real para os Óculos Inteligentes Meta Ray-Ban

O VisionClaw de sseanliu oferece um assistente de IA revolucionário para os óculos inteligentes Meta Ray-Ban, combinando voz, visão e ações agentes alimentadas por Gemini Live e OpenClaw.

OpenClawRadar