Autoresearch mit Claude Code in Produktionscodebasis: 60 Experimente, 3 Änderungen behalten

Autoresearch-Experiment an einem Produktiv-Codebase
Ein Entwickler testete Karpathys Autoresearch-Ansatz an einem echten Produktivsystem mit Claude Code, führte 60 Iterationen in zwei Runden durch, während er nicht am Computer war. Das Ziel war ein Hybrid-Suchsystem, das mit Django, pgvector und Cohere-Embeddings aufgebaut wurde.
Wichtige Ergebnisse und Erkenntnisse
Von 60 Iterationen wurden nur 3 Änderungen beibehalten, während 57 rückgängig gemacht wurden. Die Gesamtverbesserung der Bewertung war geringfügig (+0,03), aber die gewonnenen Erkenntnisse waren bedeutend:
- Titelabgleich als Suchsignal erwies sich als negativ, was in nur 2 Iterationen demonstriert wurde
- Größere Kandidatenpools hatten keine Wirkung – das Problem lag im Ranking, nicht im Recall
- Manuell erstellte adaptive Gewichtung funktionierte tatsächlich – ihre Entfernung führte zu Rückschritten
- Herumspielen mit Dämpfungsformeln für Keywords bewegte die Bewertungen kaum
- Runde 2, die auf den Haiku-Metadaten-Prompt abzielte, erbrachte keine Verbesserungen, da die Ranking-Gewichtungen aus Runde 1 auf die Ausgabe des ursprünglichen Prompts abgestimmt waren
- Entdeckung eines Redis-Caching-Fehlers: Schlüssel basierten auf Query-Hash, nicht auf Prompt-Hash, was unentdeckt in die Produktion gegangen wäre
Praktische Erkenntnisse
Die wichtigste Einsicht war, dass Autoresearch hilft, die Grenzen aufzuzeigen, nicht nur Verbesserungen zu finden. 60 Datenpunkte, die sagen „Du kannst damit aufhören, dies zu optimieren“, liefern konkrete Beweise statt sich auf Intuition zu verlassen. Der Entwickler merkt an, dass dieser Ansatz manuelle Experimentierzeit für Optimierungen sparte, die sich nicht ausgezahlt hätten.
Der vollständige Bericht ist über den Blog-Link verfügbar, und die Open-Source-Claude-Code-Autoresearch-Funktion ist auf GitHub. Der Entwickler ist neugierig, ob andere dies an Nicht-ML-Codebases ausprobieren und welche Metriken sie verwenden.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Claudes kritischer Frageansatz für die Lebenslaufprüfung im Vergleich zu ChatGPT und Gemini
Ein Entwickler testete Claude, ChatGPT und Gemini zur Optimierung von Lebensläufen und stellte fest, dass Claude einzigartig Lücken in der Berufserfahrung und Projektergebnisse hinterfragte, indem er den Lebenslauf als Argument betrachtete, das es zu prüfen gilt, anstatt nur Fakten zu polieren.

OpenClaw-Persönlicher-Assistent-Anwendungsfälle: Morgenbriefings und Verhaltensverfolgung
Ein Reddit-Nutzer zeigt, wie er OpenClaw als persönlichen Assistenten für Morgenbriefings mit Wetter, Kalender und Aufgabenintegration nutzt, und hat eine benutzerdefinierte Rauchauslöser-Erfassung entwickelt, die Auslöser in SQLite protokolliert und Daten mit Kalender- und Schlafmustern kombiniert.

Der Entwicklungsprozess für KI-basierte Textspiele mit Claude
Ein Entwickler teilt seinen Arbeitsablauf für die Erstellung von textbasierten Spielen, die nativ auf KI-Modellen wie Claude laufen, einschließlich Dateiharmonisierung, Regelverfeinerung und Verpackung von Spielen als PDF-Prompts. Sie haben ein StarCraft-thematisiertes Text-RTS namens Kreep veröffentlicht.

Drei praktische Muster, um mit OpenClaw Geld zu verdienen
Eine Analyse von 100 OpenClaw-Nutzern zeigt drei konsistente Ansätze: vorhandenes Wissen in KI-Assistenten umwandeln, repetitive Recherche automatisieren und zeitsparende Ergebnisse statt KI-Funktionen verkaufen.