Culpa: Open Source Debugging für AI Agents mit Deterministic Replay

Culpa ist eine Open-Source-Deterministic-Replay-Engine, die speziell für das Debugging von KI-Agent-Sitzungen entwickelt wurde. Das Kernproblem, das es angeht, ist die nicht-deterministische Natur von LLM-Agenten – wenn sie scheitern, kann man den genauen Fehler nicht einfach durch erneutes Ausführen der Sitzung reproduzieren.

Wie es funktioniert

Das Tool zeichnet jeden LLM-Aufruf zusammen mit dem vollständigen Ausführungskontext während einer Agent-Sitzung auf. Wenn Sie einen Fehler debuggen müssen, gibt es die Sitzung unter Verwendung der aufgezeichneten Antworten als Stubs wieder, anstatt neue API-Aufrufe zu tätigen. Dies macht die Wiedergabe vollständig deterministisch und kostet nichts, da keine echten APIs angesteuert werden.

Wichtige Funktionen

Proxy-Modus: Funktioniert mit Tools wie Claude Code und Cursor, ohne Codeänderungen zu erfordern
Python SDK: Verfügbar für Entwickler, die ihre eigenen Agenten erstellen
API-Unterstützung: Kompatibel mit Anthropic- und OpenAI-APIs
Forking-Fähigkeit: Sie können an jedem aufgezeichneten Entscheidungspunkt forken, eine andere Antwort injizieren und sehen, was passiert wäre

Praktische Vorteile

Da die Wiedergabe aufgezeichnete Antworten verwendet, anstatt tatsächliche API-Aufrufe zu tätigen, verursachen Debugging-Sitzungen keine API-Kosten. Die deterministische Natur der Wiedergaben ermöglicht es, Fehler zuverlässig zu reproduzieren und zu analysieren, die aufgrund der inhärenten Zufälligkeit von LLM-Antworten sonst nicht nachvollziehbar wären.

Das Projekt sucht aktiv nach Feedback, insbesondere von Entwicklern, die Agent-Workflows erstellen. Der Ersteller merkt an, dass er ein CS-Erstsemester ist und das Tool verbessern möchte.

📖 Read the full source: r/LocalLLaMA

Culpa: Open Source Deterministic Replay Engine for AI Agent Debugging

Wie es funktioniert

Wichtige Funktionen

Praktische Vorteile

👀 Siehe auch

Clawpage: Ein Werkzeug, das OpenClaw-Konversationen in statische Websites umwandelt

Bindungsprobleme: Ein Tool, das unvollendete GitHub-Repos analysiert und 'begräbt'

KANBAII: Ein visuelles Kanban-Board, entwickelt mit Claude Code für KI-unterstützte Entwicklung

Open-Source-Claude-Code-Tools für automatisiertes Bug-Bounty-Hunting