Claude Code Autoresearch: 93% Fehlerquote in Produktion

Autoresearch-Experiment an einem Produktiv-Codebase

Ein Entwickler testete Karpathys Autoresearch-Ansatz an einem echten Produktivsystem mit Claude Code, führte 60 Iterationen in zwei Runden durch, während er nicht am Computer war. Das Ziel war ein Hybrid-Suchsystem, das mit Django, pgvector und Cohere-Embeddings aufgebaut wurde.

Wichtige Ergebnisse und Erkenntnisse

Von 60 Iterationen wurden nur 3 Änderungen beibehalten, während 57 rückgängig gemacht wurden. Die Gesamtverbesserung der Bewertung war geringfügig (+0,03), aber die gewonnenen Erkenntnisse waren bedeutend:

Titelabgleich als Suchsignal erwies sich als negativ, was in nur 2 Iterationen demonstriert wurde
Größere Kandidatenpools hatten keine Wirkung – das Problem lag im Ranking, nicht im Recall
Manuell erstellte adaptive Gewichtung funktionierte tatsächlich – ihre Entfernung führte zu Rückschritten
Herumspielen mit Dämpfungsformeln für Keywords bewegte die Bewertungen kaum
Runde 2, die auf den Haiku-Metadaten-Prompt abzielte, erbrachte keine Verbesserungen, da die Ranking-Gewichtungen aus Runde 1 auf die Ausgabe des ursprünglichen Prompts abgestimmt waren
Entdeckung eines Redis-Caching-Fehlers: Schlüssel basierten auf Query-Hash, nicht auf Prompt-Hash, was unentdeckt in die Produktion gegangen wäre

Praktische Erkenntnisse

Die wichtigste Einsicht war, dass Autoresearch hilft, die Grenzen aufzuzeigen, nicht nur Verbesserungen zu finden. 60 Datenpunkte, die sagen „Du kannst damit aufhören, dies zu optimieren“, liefern konkrete Beweise statt sich auf Intuition zu verlassen. Der Entwickler merkt an, dass dieser Ansatz manuelle Experimentierzeit für Optimierungen sparte, die sich nicht ausgezahlt hätten.

Der vollständige Bericht ist über den Blog-Link verfügbar, und die Open-Source-Claude-Code-Autoresearch-Funktion ist auf GitHub. Der Entwickler ist neugierig, ob andere dies an Nicht-ML-Codebases ausprobieren und welche Metriken sie verwenden.

📖 Read the full source: r/ClaudeAI

Autoresearch mit Claude Code in Produktionscodebasis: 60 Experimente, 3 Änderungen behalten

Autoresearch-Experiment an einem Produktiv-Codebase

Wichtige Ergebnisse und Erkenntnisse

Praktische Erkenntnisse

👀 Siehe auch

Verwenden von SkyClaw mit Google Sheets für den Bewerbungs-Workflow

Erstellung eines persönlichen Risiko-Episode-Trackers mit OpenClaw: Eine DeFi-Rug-Pull-Fallstudie

KI-Agent führt vollständigen E-Commerce-Betrieb: Interner Bericht

Praktische Lehren aus der Automatisierung von LinkedIn-Outreach mit OpenClaw