Culpa: AIエージェントデバッグのためのオープンソース決定性リプレイエンジン

✍️ OpenClawRadar📅 公開日: April 20, 2026🔗 Source
Culpa: AIエージェントデバッグのためのオープンソース決定性リプレイエンジン
Ad

Culpaは、AIエージェントセッションのデバッグに特化して設計されたオープンソースの決定論的再生エンジンです。このツールが解決する中核的な問題は、LLMエージェントの非決定論的な性質です。エージェントが失敗した場合、セッションを単に再実行するだけでは正確な失敗を再現できません。

仕組み

このツールは、エージェントセッション中にすべてのLLM呼び出しと完全な実行コンテキストを記録します。失敗をデバッグする必要がある場合、新しいAPI呼び出しを行う代わりに、記録された応答をスタブとして使用してセッションを再生します。これにより、再生は完全に決定論的になり、実際のAPIを呼び出さないためコストがかかりません。

主な機能

  • プロキシモード: Claude CodeやCursorなどのツールと連携し、コード変更を必要としません
  • Python SDK: 独自のエージェントを構築する開発者向けに利用可能
  • APIサポート: AnthropicおよびOpenAI APIと互換性があります
  • フォーク機能: 記録された任意の決定ポイントでフォークし、異なる応答を注入して、何が起こったかを確認できます

実用的な利点

再生では実際のAPI呼び出しの代わりに記録された応答を使用するため、デバッグセッションではAPIコストがゼロになります。再生の決定論的な性質により、LLM応答に内在するランダム性のために再現が不可能だった失敗を確実に再現して分析することが可能になります。

このプロジェクトは、特にエージェントワークフローを構築している開発者からのフィードバックを積極的に求めています。作成者はCS(コンピュータサイエンス)の新入生であり、ツールの改善を目指していると述べています。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Qwen 3.6 27B量子化ベンチマーク:実用的トレードオフでQ4_K_MがQ8_0を凌駕
Tools

Qwen 3.6 27B量子化ベンチマーク:実用的トレードオフでQ4_K_MがQ8_0を凌駕

BF16、Q4_K_M、Q8_0のGGUF量子化バリアントでQwen 3.6 27BをHumanEval、HellaSwag、BFCLで評価。Q4_K_MはBF16とほぼ同等のスコアを達成しつつ、RAM使用量48%削減、1.45倍の速度、68.8%のファイルサイズ削減を実現。

OpenClawRadar
Claudeワークフローライブラリ:非技術ユーザーのための10の完全なAIワークフロー
Tools

Claudeワークフローライブラリ:非技術ユーザーのための10の完全なAIワークフロー

技術的背景のないClaudeユーザー向けに、学習、研究、執筆、ビジネス、コンテンツ作成、意思決定、学習、就職活動、生産性、ライフプランニングの10の完全なAIワークフローを提供する無料のGitHubリポジトリです。

OpenClawRadar
WebアプリにOpenClawエージェントをデプロイするスキルの構築方法 - 舞台裏の解説
Tools

WebアプリにOpenClawエージェントをデプロイするスキルの構築方法 - 舞台裏の解説

OpenClawエージェント向けに開発された革新的な新スキルについてご紹介します。このスキルはWebアプリへの簡単なデプロイを可能にします。その特徴、利点、そして生産プロセスをどのように変革するかについて学びましょう。

OpenClawRadar
人間の創造性ベンチマーク:AI創造性評価における収束と発散の分離
Tools

人間の創造性ベンチマーク:AI創造性評価における収束と発散の分離

Contra Labsは、生成的AIのクリエイティブ作業における評価において、客観的に検証可能な基準(例:プロンプトへの忠実さ)と主観的な好み(例:視覚的魅力)を区別するフレームワーク「Human Creativity Benchmark (HCB)」を発表しました。このベンチマークは、現時点で正確かつ操作可能なモデルは存在せず、モード崩壊と差別化された出力の必要性に光を当てています。

OpenClawRadar