Culpa: AI 에이전트 디버깅을 위한 결정론적 재생 엔진 오픈 소스 도구

Culpa는 AI 에이전트 세션 디버깅을 위해 특별히 설계된 오픈 소스 결정론적 재생 엔진입니다. 이 도구가 해결하는 핵심 문제는 LLM 에이전트의 비결정론적 특성입니다—에이전트가 실패할 때, 단순히 세션을 다시 실행해서 정확한 실패를 재현할 수 없습니다.

작동 방식

이 도구는 에이전트 세션 동안 모든 LLM 호출과 전체 실행 컨텍스트를 기록합니다. 실패를 디버깅해야 할 때, 새로운 API 호출을 하지 않고 기록된 응답을 스텁으로 사용해 세션을 재생합니다. 이렇게 하면 재생이 완전히 결정론적이 되며, 실제 API를 호출하지 않으므로 비용이 전혀 발생하지 않습니다.

주요 기능

프록시 모드: Claude Code 및 Cursor와 같은 도구와 코드 변경 없이 작동
Python SDK: 자체 에이전트를 구축하는 개발자에게 제공
API 지원: Anthropic 및 OpenAI API와 호환
포킹 기능: 기록된 결정 지점에서 포크를 생성하고, 다른 응답을 주입하여 어떤 일이 발생했을지 확인 가능

실용적 이점

재생 시 실제 API 호출 대신 기록된 응답을 사용하므로, 디버깅 세션에 API 비용이 전혀 들지 않습니다. 재생의 결정론적 특성 덕분에, LLM 응답의 고유한 무작위성으로 인해 재현이 불가능했던 실패를 안정적으로 재현하고 분석할 수 있습니다.

이 프로젝트는 특히 에이전트 워크플로를 구축하는 개발자들의 피드백을 적극적으로 구하고 있습니다. 제작자는 CS 신입생이며 도구를 개선하고자 한다고 밝혔습니다.

📖 Read the full source: r/LocalLLaMA

Culpa: AI 에이전트 디버깅을 위한 오픈 소스 결정론적 재생 엔진

작동 방식

주요 기능

실용적 이점

👀 See Also

블라인드스팟 MCP: AI 코딩 에이전트를 위한 외부 두뇌

Loom: 복잡한 AI 작업을 위한 로컬 실행 하네스

클로드 코드 보이스 모드: 개발자를 위한 핸즈프리 AI 대화

ClaudeAI 브레인스토밍 모드, 목업과 UI 승인을 위한 시각적 동반자 기능 추가