Claude Code Autorecherche : 60 Tests, 3 Modifs Conservées

Expérience d'autorecherche sur une base de code en production

Un développeur a testé l'approche d'autorecherche de Karpathy sur un système de production réel en utilisant Claude Code, exécutant 60 itérations sur deux tours de tests tout en étant absent de l'ordinateur. La cible était un système de recherche hybride construit avec Django, pgvector et les intégrations Cohere.

Résultats et découvertes clés

Sur 60 itérations, seules 3 modifications ont été conservées tandis que 57 ont été annulées. L'amélioration globale du score était marginale (+0,03), mais les connaissances acquises étaient significatives :

La correspondance des titres comme signal de recherche s'est avérée globalement négative, démontrée en seulement 2 itérations
Des pools de candidats plus grands n'ont eu aucun effet - le problème était le classement, pas le rappel
La pondération adaptative construite manuellement a réellement fonctionné - la supprimer a causé des régressions
Modifier les formules d'amortissement des mots-clés a à peine fait bouger les scores
Le tour 2 ciblant l'invite de métadonnées Haiku n'a donné aucune amélioration car les poids de classement du tour 1 étaient co-optimisés pour la sortie de l'invite originale
Découverte d'un bug de mise en cache Redis : les clés étaient basées sur le hachage de la requête, pas sur le hachage de l'invite, ce qui aurait été déployé en production sans être remarqué

Retours d'expérience pratiques

La plus grande leçon était que l'autorecherche aide à cartographier où se trouve le plafond, pas seulement à trouver des améliorations. Avoir 60 points de données disant "Vous pouvez arrêter d'ajuster cela" fournit des preuves concrètes plutôt que de s'appuyer sur l'intuition. Le développeur note que cette approche a permis d'économiser du temps d'expérimentation manuelle sur des optimisations qui n'auraient pas été rentables.

Le compte-rendu complet est disponible sur le lien du blog, et la compétence d'autorecherche open source Claude Code est sur GitHub. Le développeur est curieux de savoir si d'autres ont essayé cela sur des bases de code non-ML et quelles métriques ils utilisent.

📖 Read the full source: r/ClaudeAI

Recherche Automatisée avec Claude Code sur la Base de Code de Production : 60 Expériences, 3 Modifications Conservées

Expérience d'autorecherche sur une base de code en production

Résultats et découvertes clés

Retours d'expérience pratiques

👀 See Also

Système autonome à 5 agents Claude remplace des coûts d'API de 3 000 $/mois par un seul abonnement

Pipeline de développement d'IA automatisée avec 11 portes de qualité et profils de confiance

Étude de cas OpenClaw : Construire 4 produits et lancer une entreprise en 3 semaines

Leçons pratiques de la construction d'un agent compagnon IA local permanent