AIエージェントパイプライン向けオープンソース構造的幻覚チェッカー

✍️ OpenClawRadar📅 公開日: March 11, 2026🔗 Source

AIエージェントパイプライン向けオープンソース構造的幻覚チェッカー

Ad

機能概要

AIエージェントパイプライン向けに特別に設計された構造的ハルシネーションチェッカー。事実確認とは異なり、このツールは下流ツールを破壊する構造的失敗の検出に焦点を当てています。

解決する課題

エージェントの問題の多くは事実誤認ではなく、以下のような構造的問題です：

JSONツール応答でモデルがフィールドを捏造する
取得セットに含まれていないソースを引用する
取得コンテンツ内に隠されたプロンプトインジェクション
ツールが返していない内容を返したと主張する

4つの抑制機能

このツールには、Claude Codeで構築された4つの抑制機能が含まれており、エージェントの出力がユーザーに届く前に単一ステップとして実行されます：

grounding_enforcer - モデル出力が実際に渡されたソースでサポートされているか確認
prompt_suppressor - 取得コンテンツやツール結果におけるインジェクション試行を検出
json_suppressor - 構造化ツール応答を期待されるスキーマに対して検証
tool_response_suppressor - ツールが主張する出力と実際の返り値が一致しない場合にフラグを立てる

利用方法

このツールは2つの形式で利用可能です：

REST API
MCPサーバー（Claude Desktop、Cursor、Windsurfなどと連携）

無料枠ではクレジットカード不要で月500リクエストを提供します。

ソースとドキュメント

GitHubリポジトリ： https://github.com/steveswain14/mcp-hallucination-suite

APIとドキュメント： https://certifai.dev

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

オープンソースのLLMエージェント向け自動メモリシステム、94%の再現精度を達成

オープンソースのLLMエージェント向け自動メモリシステム、94%の再現精度を達成

開発者が、明示的な「これを保存して」というコマンドを必要とせずに、セッションを超えて事実を自動的に抽出、分類、永続化するLLMベースエージェント用の自動メモリシステムをオープンソース化しました。このシステムは、ベクトルデータベースの代わりに構造化マークダウンファイルを使用し、52のチェックポイントからなるリコールベンチマークで94.2%の精度を達成しました。

Mar 21, 2026, 09:45 AM UTC

LLMセッションのドリフトを防ぐ7ファイルガバナンスレイヤー

LLMセッションのドリフトを防ぐ7ファイルガバナンスレイヤー

開発者が、Claudeがセッション間でアーキテクチャ上の決定を黙って元に戻すのを防ぐために、7つのファイルからなるガバナンスレイヤーを作成しました。このシステムには、厳格な実行ループを持つactive_context.md、contracts.md、decisions.mdファイルが含まれています。

Apr 13, 2026, 08:45 PM UTC

イタリアの列車データ用MCPサーバー：Claude内でのリアルタイム遅延・出発・時刻表情報

イタリアの列車データ用MCPサーバー：Claude内でのリアルタイム遅延・出発・時刻表情報

開発者がトレニタリア向けの非公式MCPサーバーを構築し、Claudeが自然言語で列車関連の質問に答えられるようにしました。このプロジェクトは、イタリアでの列車遅延確認のために複数のアプリを切り替える日常的な通勤問題を解決するために作成されました。

Mar 17, 2026, 02:45 PM UTC

OpenClawスキルにより、広告の多いサイトのアクセシビリティツリートークンが60万から1300に削減されます。

OpenClawスキルにより、広告の多いサイトのアクセシビリティツリートークンが60万から1300に削減されます。

開発者がMLベースの要素ランキングを使用してアクセシビリティツリーを剪定するOpenClawスキルを構築し、slickdeals.comのトークン数を約598Kから約1.3Kに削減しました。これは上位約50の操作可能な要素のみを保持することで実現されています。

Feb 26, 2026, 05:45 AM UTC