Open-Source Tool: 34,2% Genauigkeitssteigerung für Agenten

Automatisierung des Agentenverbesserungsprozesses

Ein Entwickler hat ein System quelloffen gemacht, das den gesamten Prozess der Verbesserung von KI-Agenten automatisiert, indem es ihnen ermöglicht, sich selbst zu analysieren und zu korrigieren. Das Tool adressiert das häufige Problem des manuellen Durchlesens von Protokollen, Anpassens von Prompts und Hoffens auf Verbesserungen.

Der Fünf-Schritte-Prozess

Der automatisierte Kreislauf folgt fünf klar definierten Schritten:

Spurenanalyse: Analysiert Spuren, um nicht nur festzustellen, was fehlgeschlagen ist, sondern auch warum, ob es sich um ein einmaliges oder systemisches Problem handelt und um welche Art von Fehler es sich handelt. Erstellt eine strukturierte Aufschlüsselung der Fehlermodi anstelle von bloßen Fehlerlisten.
Erstellung von Evaluierungen: Erstellt spezifische Bewertungen, um die Analyse zu validieren und Korrekturen zu messen. Generische Bewertungen erfassen spezifische Fehler nicht. LLM-as-a-judge dient als Ausweichlösung, wenn Spurendaten nicht strukturiert genug für deterministische Bewertungen sind.
Basismessung: Führt Bewertungen gegen den aktuellen Agenten durch, bevor Korrekturen vorgenommen werden, um Baselines zu etablieren und die Bewertungen selbst zu validieren.
Umsetzung von Korrekturen: Ein Entwickler prüft die Analyse und die Codebasis, um zu entscheiden, was geändert werden soll. Die Schlüsselentscheidung ist, ob die Korrektur im Prompt oder im umgebenden Code erfolgen soll (z. B. wenn das Harness Tool-Ausgaben schlecht verarbeitet oder nicht den richtigen Kontext weitergibt).
Verifizierung und Kumulierung: Nach den Korrekturen werden die Bewertungen erneut durchgeführt, um die Verbesserung zu überprüfen, wobei Änderungen beibehalten, zurückgesetzt oder überarbeitet werden.

Implementierungsdetails

Die Lösung automatisiert diesen gesamten Kreislauf von Anfang bis Ende mit einem Befehl, der ein sich selbst analysierendes agentisches System aufruft. Die Spurenanalyse findet in einer REPL-Umgebung mit Agenten statt, die für diesen spezifischen Anwendungsfall optimiert sind. Das System stellt die Analyse über CLI-Zugriff auf Claude Code bereit, um den Rest mit einem Satz von Fähigkeiten zu erledigen.

Da Claude innerhalb der Codebasis arbeiten kann, validiert es die Analyse und entscheidet im Korrekturschritt über den besten Vorgehensweg (Prompt vs. Code).

Ergebnisse und Betrieb

Beim Benchmark auf dem Tau-2 Bench mit nur einer Iteration erzielte der erste Durchlauf einen Genauigkeitsgewinn von 34,2 % ohne manuelles Eingreifen. Das System ist darauf ausgelegt, Verbesserungen zu kumulieren: Neue Spuren decken neue Probleme auf, die in jedem Zyklus zu neuen Korrekturen führen.

Sie können es so einstellen, dass es vollständig autonom läuft. Eine Option mit menschlicher Kontrolle existiert, wenn Sie Korrekturen vor Schritt 4 genehmigen möchten, aber in Tests ließ der Entwickler es "einfach laufen".

Das Tool ist quelloffen auf GitHub verfügbar: https://github.com/kayba-ai/agentic-context-engine

📖 Read the full source: r/ClaudeAI

Agentischer Kontext-Motor: Automatisierte Agenten-Verbesserungsschleife mit 34,2 % Genauigkeitssteigerung

Automatisierung des Agentenverbesserungsprozesses

Der Fünf-Schritte-Prozess

Implementierungsdetails

Ergebnisse und Betrieb

👀 Siehe auch

MCP-Marktplatz, erstellt mit Claude Code, bietet Sicherheitsscans und Monetarisierungsfunktionen.

OpenTidy: Open-Source Hintergrund-Assistent mit Claude Code für Verwaltungsaufgaben

Claude Agent Teams UI: Desktop-App zur Visualisierung von Claude-Code-Agent-Workflows

Drei MCP-Server für E-Commerce-Recherche mit Claude: Shopify-, Amazon- und Google Maps-Tools