Pesquisa Automatizada com Claude Code em Base de Código de Produção: 60 Experimentos, 3 Alterações Mantidas

Experimento de Autoresearch em Base de Código de Produção
Um desenvolvedor testou a abordagem de autoresearch de Karpathy em um sistema real de produção usando Claude Code, executando 60 iterações em duas rodadas enquanto estava longe do computador. O alvo foi um sistema de busca híbrida construído com Django, pgvector e embeddings da Cohere.
Principais Resultados e Descobertas
Das 60 iterações, apenas 3 alterações foram mantidas enquanto 57 foram revertidas. A melhoria geral na pontuação foi marginal (+0,03), mas o conhecimento adquirido foi significativo:
- A correspondência de títulos como sinal de busca provou ser negativa, demonstrada em apenas 2 iterações
- Pools de candidatos maiores não tiveram efeito - o problema foi a classificação, não o recall
- A ponderação adaptativa construída manualmente realmente funcionou - removê-la causou regressões
- Ajustar fórmulas de amortecimento de palavras-chave mal moveu as pontuações
- A rodada 2 visando o prompt de metadados do Haiku não gerou melhorias porque os pesos de classificação da rodada 1 foram co-otimizados para a saída do prompt original
- Descobriu um bug de cache do Redis: as chaves estavam no hash da consulta, não no hash do prompt, que teria sido enviado para produção sem ser notado
Lições Práticas
A maior percepção foi que o autoresearch ajuda a mapear onde está o limite, não apenas encontrar melhorias. Ter 60 pontos de dados dizendo "Você pode parar de ajustar isso" fornece evidências concretas em vez de depender da intuição. O desenvolvedor observa que essa abordagem economizou tempo de experimentação manual em otimizações que não teriam valido a pena.
O relatório completo está disponível no link do blog, e a habilidade de autoresearch de código aberto do Claude Code está no GitHub. O desenvolvedor está curioso sobre outras pessoas tentando isso em bases de código não-ML e quais métricas estão usando.
📖 Read the full source: r/ClaudeAI
👀 See Also

O bot OpenClaw conecta n8n, WordPress, Airtable e GHL para automação de CRM.
Um não-desenvolvedor usou um bot OpenClaw para conectar ambientes n8n, WordPress, Airtable e GoHighLevel via chats do Telegram, construindo um sistema de CRM e fluxo de trabalho em uma semana. O bot consumiu muitos tokens, mas provou ser mais barato do que contratar ajuda técnica.

Desenvolvedor troca Cursor por Claude para acesso ilimitado ao Opus
Um desenvolvedor migrou do Cursor para o plano Max de US$ 100 do Claude para obter uso ilimitado do Sonnet e Opus, considerando-o mais econômico do que a despesa mensal de US$ 120 do Cursor com créditos.

Fluxo de Trabalho do Claude para Desenvolvimento Backend em Empresas
Um desenvolvedor de backend em uma grande empresa financeira dos EUA compartilha seu fluxo de trabalho com Claude: fornecendo descrições detalhadas de tarefas com especificações e documentos internos, usando Claude para criar um documento markdown funcional e, em seguida, empregando um agente de revisão de código com diretrizes de estilo organizacional.

Pipeline de Desenvolvimento de IA Automatizado com 11 Portões de Qualidade e Perfis de Confiança
Um desenvolvedor criou um pipeline com IA e 11 portões de qualidade automatizados que funciona de ponta a ponta sem aprovações manuais, usando perfis de confiança, recuperação automática e cache para lidar com design, planejamento, construção, testes e verificações de segurança de forma autônoma, reduzindo o uso de tokens em 60-84%.