Agentischer Kontext-Motor: Automatisierte Agenten-Verbesserungsschleife mit 34,2 % Genauigkeitssteigerung

Automatisierung des Agentenverbesserungsprozesses
Ein Entwickler hat ein System quelloffen gemacht, das den gesamten Prozess der Verbesserung von KI-Agenten automatisiert, indem es ihnen ermöglicht, sich selbst zu analysieren und zu korrigieren. Das Tool adressiert das häufige Problem des manuellen Durchlesens von Protokollen, Anpassens von Prompts und Hoffens auf Verbesserungen.
Der Fünf-Schritte-Prozess
Der automatisierte Kreislauf folgt fünf klar definierten Schritten:
- Spurenanalyse: Analysiert Spuren, um nicht nur festzustellen, was fehlgeschlagen ist, sondern auch warum, ob es sich um ein einmaliges oder systemisches Problem handelt und um welche Art von Fehler es sich handelt. Erstellt eine strukturierte Aufschlüsselung der Fehlermodi anstelle von bloßen Fehlerlisten.
- Erstellung von Evaluierungen: Erstellt spezifische Bewertungen, um die Analyse zu validieren und Korrekturen zu messen. Generische Bewertungen erfassen spezifische Fehler nicht. LLM-as-a-judge dient als Ausweichlösung, wenn Spurendaten nicht strukturiert genug für deterministische Bewertungen sind.
- Basismessung: Führt Bewertungen gegen den aktuellen Agenten durch, bevor Korrekturen vorgenommen werden, um Baselines zu etablieren und die Bewertungen selbst zu validieren.
- Umsetzung von Korrekturen: Ein Entwickler prüft die Analyse und die Codebasis, um zu entscheiden, was geändert werden soll. Die Schlüsselentscheidung ist, ob die Korrektur im Prompt oder im umgebenden Code erfolgen soll (z. B. wenn das Harness Tool-Ausgaben schlecht verarbeitet oder nicht den richtigen Kontext weitergibt).
- Verifizierung und Kumulierung: Nach den Korrekturen werden die Bewertungen erneut durchgeführt, um die Verbesserung zu überprüfen, wobei Änderungen beibehalten, zurückgesetzt oder überarbeitet werden.
Implementierungsdetails
Die Lösung automatisiert diesen gesamten Kreislauf von Anfang bis Ende mit einem Befehl, der ein sich selbst analysierendes agentisches System aufruft. Die Spurenanalyse findet in einer REPL-Umgebung mit Agenten statt, die für diesen spezifischen Anwendungsfall optimiert sind. Das System stellt die Analyse über CLI-Zugriff auf Claude Code bereit, um den Rest mit einem Satz von Fähigkeiten zu erledigen.
Da Claude innerhalb der Codebasis arbeiten kann, validiert es die Analyse und entscheidet im Korrekturschritt über den besten Vorgehensweg (Prompt vs. Code).
Ergebnisse und Betrieb
Beim Benchmark auf dem Tau-2 Bench mit nur einer Iteration erzielte der erste Durchlauf einen Genauigkeitsgewinn von 34,2 % ohne manuelles Eingreifen. Das System ist darauf ausgelegt, Verbesserungen zu kumulieren: Neue Spuren decken neue Probleme auf, die in jedem Zyklus zu neuen Korrekturen führen.
Sie können es so einstellen, dass es vollständig autonom läuft. Eine Option mit menschlicher Kontrolle existiert, wenn Sie Korrekturen vor Schritt 4 genehmigen möchten, aber in Tests ließ der Entwickler es "einfach laufen".
Das Tool ist quelloffen auf GitHub verfügbar: https://github.com/kayba-ai/agentic-context-engine
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

MCP-Marktplatz, erstellt mit Claude Code, bietet Sicherheitsscans und Monetarisierungsfunktionen.
Ein Entwickler hat mcp-marketplace.io mit Claude Code für 95 % der Codebasis erstellt und einen kuratierten Marktplatz mit Sicherheitsüberprüfung für über 2.200 MCP-Server und Monetarisierungsoptionen für Ersteller aufgebaut.

OpenTidy: Open-Source Hintergrund-Assistent mit Claude Code für Verwaltungsaufgaben
OpenTidy ist ein Open-Source-macOS-Dienst, der persistente Claude-Code-Sitzungen erzeugt, um Verwaltungsaufgaben wie Rechnungen, Formulare und Kommunikationspriorisierung zu bearbeiten. Er führt bis zu 10 parallele Jobs mit Telegram-Benachrichtigungen für sensible Aktionen aus.

Claude Agent Teams UI: Desktop-App zur Visualisierung von Claude-Code-Agent-Workflows
Ein Entwickler hat eine kostenlose, quelloffene Desktop-App erstellt, die eine visuelle Ebene zur experimentellen Agent Teams-Funktion von Claude Code hinzufügt. Die App bietet ein Echtzeit-Kanban-Board, auf dem sich Aufgaben automatisch bewegen, während Agenten arbeiten, plus teamübergreifende Kommunikation, integrierte Review-Workflows und Code-Reviews pro Aufgabe.

Drei MCP-Server für E-Commerce-Recherche mit Claude: Shopify-, Amazon- und Google Maps-Tools
Ein Entwickler hat drei MCP-Server für Claude erstellt, um Shopify-Shops ohne API-Schlüssel zu analysieren, Amazon-Produktchancen zu bewerten und lokale Geschäftskontakte von Google Maps zu finden und zu bewerten. Alle sind auf Apify verfügbar.