Claude Code: 60 experimentos, sólo 3 cambios conservados (tasa fallo 93%)

Experimento de Investigación Automática en Base de Código de Producción

Un desarrollador probó el enfoque de investigación automática de Karpathy en un sistema real de producción utilizando Claude Code, ejecutando 60 iteraciones en dos rondas mientras estaba lejos del ordenador. El objetivo era un sistema de búsqueda híbrida construido con Django, pgvector y embeddings de Cohere.

Resultados y Hallazgos Clave

De 60 iteraciones, solo se mantuvieron 3 cambios mientras que 57 fueron revertidos. La mejora general en la puntuación fue marginal (+0,03), pero el conocimiento obtenido fue significativo:

La coincidencia de títulos como señal de búsqueda resultó ser negativa, demostrado en solo 2 iteraciones
Los grupos de candidatos más grandes no tuvieron efecto: el problema era la clasificación, no la recuperación
La ponderación adaptativa construida manualmente realmente funcionó: eliminarla causó regresiones
Modificar fórmulas de amortiguación de palabras clave apenas movió las puntuaciones
La ronda 2 dirigida al mensaje de metadatos de Haiku no produjo mejoras porque los pesos de clasificación de la ronda 1 estaban co-optimizados para la salida del mensaje original
Se descubrió un error de almacenamiento en caché de Redis: las claves estaban en el hash de consulta, no en el hash del mensaje, lo que habría pasado a producción sin ser detectado

Conclusiones Prácticas

La mayor percepción fue que la investigación automática ayuda a mapear dónde está el límite superior, no solo a encontrar mejoras. Tener 60 puntos de datos que dicen "Puedes dejar de ajustar esto" proporciona evidencia concreta en lugar de depender de la intuición. El desarrollador señala que este enfoque ahorró tiempo de experimentación manual en optimizaciones que no habrían dado resultado.

El informe completo está disponible en el enlace del blog, y la habilidad de investigación automática de Claude Code de código abierto está en GitHub. El desarrollador está interesado en que otros prueben esto en bases de código no de aprendizaje automático y en qué métricas están utilizando.

📖 Leer la fuente completa: r/ClaudeAI

Investigación Automatizada con Claude Code en Base de Código de Producción: 60 Experimentos, 3 Cambios Conservados

Experimento de Investigación Automática en Base de Código de Producción

Resultados y Hallazgos Clave

Conclusiones Prácticas

👀 Ver también

Evolución de la configuración de OpenClaw: de la sobreconfiguración a un sistema multiagente práctico

OpenClaw Automatiza las Reservas de Restaurantes con la Habilidad de OpenTable

Caso de depuración de Claude: El agente falló silenciosamente debido a un parámetro faltante, el contexto importó más que el modelo.

No programador construye panel en vivo de MLB usando Claude AI y Claude Code en GitHub Codespaces.