Claude Code: 60 Experimentos, 93% de Falha em Pesquisa Automatizada

Experimento de Autoresearch em Base de Código de Produção

Um desenvolvedor testou a abordagem de autoresearch de Karpathy em um sistema real de produção usando Claude Code, executando 60 iterações em duas rodadas enquanto estava longe do computador. O alvo foi um sistema de busca híbrida construído com Django, pgvector e embeddings da Cohere.

Principais Resultados e Descobertas

Das 60 iterações, apenas 3 alterações foram mantidas enquanto 57 foram revertidas. A melhoria geral na pontuação foi marginal (+0,03), mas o conhecimento adquirido foi significativo:

A correspondência de títulos como sinal de busca provou ser negativa, demonstrada em apenas 2 iterações
Pools de candidatos maiores não tiveram efeito - o problema foi a classificação, não o recall
A ponderação adaptativa construída manualmente realmente funcionou - removê-la causou regressões
Ajustar fórmulas de amortecimento de palavras-chave mal moveu as pontuações
A rodada 2 visando o prompt de metadados do Haiku não gerou melhorias porque os pesos de classificação da rodada 1 foram co-otimizados para a saída do prompt original
Descobriu um bug de cache do Redis: as chaves estavam no hash da consulta, não no hash do prompt, que teria sido enviado para produção sem ser notado

Lições Práticas

A maior percepção foi que o autoresearch ajuda a mapear onde está o limite, não apenas encontrar melhorias. Ter 60 pontos de dados dizendo "Você pode parar de ajustar isso" fornece evidências concretas em vez de depender da intuição. O desenvolvedor observa que essa abordagem economizou tempo de experimentação manual em otimizações que não teriam valido a pena.

O relatório completo está disponível no link do blog, e a habilidade de autoresearch de código aberto do Claude Code está no GitHub. O desenvolvedor está curioso sobre outras pessoas tentando isso em bases de código não-ML e quais métricas estão usando.

📖 Read the full source: r/ClaudeAI

Pesquisa Automatizada com Claude Code em Base de Código de Produção: 60 Experimentos, 3 Alterações Mantidas

Experimento de Autoresearch em Base de Código de Produção

Principais Resultados e Descobertas

Lições Práticas

👀 See Also

Usando Claude Opus 4 para Orquestração de IA em Hardware Limitado

OpenClaw Reconcilia a Planilha de Dispositivos Garmin com o Histórico Real de Atividades

Claude AI usado para automatizar pesquisa e classificação de startups do YC W26

Construa um Chat de IA Mãos-Livres com OpenClaw + Mattermost — Sem Necessidade de Voz em Tempo Real