Autoresearch mit Claude Code in Produktionscodebasis: 60 Experimente, 3 Änderungen behalten

✍️ OpenClawRadar📅 Veröffentlicht: 24. März 2026🔗 Source
Autoresearch mit Claude Code in Produktionscodebasis: 60 Experimente, 3 Änderungen behalten
Ad

Autoresearch-Experiment an einem Produktiv-Codebase

Ein Entwickler testete Karpathys Autoresearch-Ansatz an einem echten Produktivsystem mit Claude Code, führte 60 Iterationen in zwei Runden durch, während er nicht am Computer war. Das Ziel war ein Hybrid-Suchsystem, das mit Django, pgvector und Cohere-Embeddings aufgebaut wurde.

Wichtige Ergebnisse und Erkenntnisse

Von 60 Iterationen wurden nur 3 Änderungen beibehalten, während 57 rückgängig gemacht wurden. Die Gesamtverbesserung der Bewertung war geringfügig (+0,03), aber die gewonnenen Erkenntnisse waren bedeutend:

  • Titelabgleich als Suchsignal erwies sich als negativ, was in nur 2 Iterationen demonstriert wurde
  • Größere Kandidatenpools hatten keine Wirkung – das Problem lag im Ranking, nicht im Recall
  • Manuell erstellte adaptive Gewichtung funktionierte tatsächlich – ihre Entfernung führte zu Rückschritten
  • Herumspielen mit Dämpfungsformeln für Keywords bewegte die Bewertungen kaum
  • Runde 2, die auf den Haiku-Metadaten-Prompt abzielte, erbrachte keine Verbesserungen, da die Ranking-Gewichtungen aus Runde 1 auf die Ausgabe des ursprünglichen Prompts abgestimmt waren
  • Entdeckung eines Redis-Caching-Fehlers: Schlüssel basierten auf Query-Hash, nicht auf Prompt-Hash, was unentdeckt in die Produktion gegangen wäre
Ad

Praktische Erkenntnisse

Die wichtigste Einsicht war, dass Autoresearch hilft, die Grenzen aufzuzeigen, nicht nur Verbesserungen zu finden. 60 Datenpunkte, die sagen „Du kannst damit aufhören, dies zu optimieren“, liefern konkrete Beweise statt sich auf Intuition zu verlassen. Der Entwickler merkt an, dass dieser Ansatz manuelle Experimentierzeit für Optimierungen sparte, die sich nicht ausgezahlt hätten.

Der vollständige Bericht ist über den Blog-Link verfügbar, und die Open-Source-Claude-Code-Autoresearch-Funktion ist auf GitHub. Der Entwickler ist neugierig, ob andere dies an Nicht-ML-Codebases ausprobieren und welche Metriken sie verwenden.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

Claudes kritischer Frageansatz für die Lebenslaufprüfung im Vergleich zu ChatGPT und Gemini
Anwendungsfälle

Claudes kritischer Frageansatz für die Lebenslaufprüfung im Vergleich zu ChatGPT und Gemini

Ein Entwickler testete Claude, ChatGPT und Gemini zur Optimierung von Lebensläufen und stellte fest, dass Claude einzigartig Lücken in der Berufserfahrung und Projektergebnisse hinterfragte, indem er den Lebenslauf als Argument betrachtete, das es zu prüfen gilt, anstatt nur Fakten zu polieren.

OpenClawRadar
OpenClaw-Persönlicher-Assistent-Anwendungsfälle: Morgenbriefings und Verhaltensverfolgung
Anwendungsfälle

OpenClaw-Persönlicher-Assistent-Anwendungsfälle: Morgenbriefings und Verhaltensverfolgung

Ein Reddit-Nutzer zeigt, wie er OpenClaw als persönlichen Assistenten für Morgenbriefings mit Wetter, Kalender und Aufgabenintegration nutzt, und hat eine benutzerdefinierte Rauchauslöser-Erfassung entwickelt, die Auslöser in SQLite protokolliert und Daten mit Kalender- und Schlafmustern kombiniert.

OpenClawRadar
Der Entwicklungsprozess für KI-basierte Textspiele mit Claude
Anwendungsfälle

Der Entwicklungsprozess für KI-basierte Textspiele mit Claude

Ein Entwickler teilt seinen Arbeitsablauf für die Erstellung von textbasierten Spielen, die nativ auf KI-Modellen wie Claude laufen, einschließlich Dateiharmonisierung, Regelverfeinerung und Verpackung von Spielen als PDF-Prompts. Sie haben ein StarCraft-thematisiertes Text-RTS namens Kreep veröffentlicht.

OpenClawRadar
Drei praktische Muster, um mit OpenClaw Geld zu verdienen
Anwendungsfälle

Drei praktische Muster, um mit OpenClaw Geld zu verdienen

Eine Analyse von 100 OpenClaw-Nutzern zeigt drei konsistente Ansätze: vorhandenes Wissen in KI-Assistenten umwandeln, repetitive Recherche automatisieren und zeitsparende Ergebnisse statt KI-Funktionen verkaufen.

OpenClawRadar