Recherche Automatisée avec Claude Code sur la Base de Code de Production : 60 Expériences, 3 Modifications Conservées

Expérience d'autorecherche sur une base de code en production
Un développeur a testé l'approche d'autorecherche de Karpathy sur un système de production réel en utilisant Claude Code, exécutant 60 itérations sur deux tours de tests tout en étant absent de l'ordinateur. La cible était un système de recherche hybride construit avec Django, pgvector et les intégrations Cohere.
Résultats et découvertes clés
Sur 60 itérations, seules 3 modifications ont été conservées tandis que 57 ont été annulées. L'amélioration globale du score était marginale (+0,03), mais les connaissances acquises étaient significatives :
- La correspondance des titres comme signal de recherche s'est avérée globalement négative, démontrée en seulement 2 itérations
- Des pools de candidats plus grands n'ont eu aucun effet - le problème était le classement, pas le rappel
- La pondération adaptative construite manuellement a réellement fonctionné - la supprimer a causé des régressions
- Modifier les formules d'amortissement des mots-clés a à peine fait bouger les scores
- Le tour 2 ciblant l'invite de métadonnées Haiku n'a donné aucune amélioration car les poids de classement du tour 1 étaient co-optimisés pour la sortie de l'invite originale
- Découverte d'un bug de mise en cache Redis : les clés étaient basées sur le hachage de la requête, pas sur le hachage de l'invite, ce qui aurait été déployé en production sans être remarqué
Retours d'expérience pratiques
La plus grande leçon était que l'autorecherche aide à cartographier où se trouve le plafond, pas seulement à trouver des améliorations. Avoir 60 points de données disant "Vous pouvez arrêter d'ajuster cela" fournit des preuves concrètes plutôt que de s'appuyer sur l'intuition. Le développeur note que cette approche a permis d'économiser du temps d'expérimentation manuelle sur des optimisations qui n'auraient pas été rentables.
Le compte-rendu complet est disponible sur le lien du blog, et la compétence d'autorecherche open source Claude Code est sur GitHub. Le développeur est curieux de savoir si d'autres ont essayé cela sur des bases de code non-ML et quelles métriques ils utilisent.
📖 Read the full source: r/ClaudeAI
👀 See Also

L'agent OpenClaw génère des modèles CAO et des fichiers STL à partir de spécifications dimensionnelles.
Un utilisateur a découvert que son agent OpenClaw peut créer des fichiers STL et SCAD à partir de spécifications dimensionnelles, produisant des modèles 3D fonctionnels avec les dimensions exactes demandées en environ 20 secondes.

Utilisation de fichiers Markdown comme moteur de flux de travail pour Claude Code dans Kubernetes
Un développeur a remplacé les outils de pipeline traditionnels comme Dagster ou Prefect par des fichiers markdown en anglais simple que Claude Code exécute en tant que CronJob Kubernetes. Le système coordonne les étapes en écrivant des artefacts sur le disque et fonctionne depuis plus d'un mois.

Créer un jeu Steam en 10 jours avec Claude Code : Défis techniques et flux de travail
Un développeur a créé et publié un jeu sur Steam en 10 jours en utilisant Claude Code sans écrire personnellement de code, mais a rencontré des défis importants dans la conception logique et le débogage du code généré par l'IA.

Construire un Système de Recherche ML Autonome Productif avec Claude Code
Un développeur a créé un système où Claude Code agit comme un chercheur en apprentissage automatique autonome sur des données tabulaires, exécutant des expériences pendant la nuit avec une édition de fichiers contrainte et un sandbox Docker. Les principaux enseignements incluent le verrouillage des fichiers modifiables, la protection du débit des expériences avec des limites, et la mise en œuvre d'une mémoire persistante via une journalisation structurée.