サムゲートは、AI安全性のために清華大学の自然言語エージェント制御パターンを実装しています

✍️ OpenClawRadar📅 公開日: April 5, 2026🔗 Source
サムゲートは、AI安全性のために清華大学の自然言語エージェント制御パターンを実装しています
Ad

NLAHパターンのThumbGate実装

清華大学の論文(arxiv 2603.25723)のNatural-Language Agent Harness(NLAH)パターンは、AIエージェントの安全レイヤーを特定のコンポーネントを持つ第一級オブジェクトとして扱うことを形式化しています。オープンソースツールThumbGateは、このパターンを実装し、実運用システムへの具体的なマッピングを提供します。

コンポーネントマッピング

ThumbGateは4つのNLAHコンポーネントを実用的な実装にマッピングします:

  • 契約 → サムズダウンフィードバックから自動生成される予防ルール
  • 検証ゲート → すべてのツール呼び出しを実行前にインターセプトするPreToolUseフック
  • 永続状態 → セッションをまたいで永続化するSQLite+FTS5レッスンデータベース
  • アダプター → Claude Code、Cursor、Codex、Gemini、Amp向けのMCPサーバーアダプター

主要な実装の洞察

開発者は、プロンプトルールは静かに失敗する(エージェントが推論で回避できる)一方、検証ゲートは明示的に失敗する(エージェントがブロック応答を受け取り、適応する必要がある)ことを発見しました。彼らは不確実な深刻度レベルを扱うためにトンプソンサンプリングを使用し、新しいルールは警告として開始され、フィードバックに基づいてハードブロックに昇格します。

完全な実装の詳細とマッピングは、彼らの詳細なドキュメントで利用可能です。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Zikra: Claude Code、Cursor、Codex向けのセルフホスト型MCPメモリサーバー
Tools

Zikra: Claude Code、Cursor、Codex向けのセルフホスト型MCPメモリサーバー

Zikraは、Claude CodeセッションがStopフックによって終了する際に、すべての決定、エラー、要件を自動的に保存するセルフホスト型MCPメモリサーバーです。これにより、ツールやチームメンバー間でアクセス可能な共有メモリプールが作成されます。

OpenClawRadar
Claude-First Analytics MCPサーバー:ウェブ解析コンテキストへのAIエージェントの直接アクセスを実現
Tools

Claude-First Analytics MCPサーバー:ウェブ解析コンテキストへのAIエージェントの直接アクセスを実現

ある開発者が自身のWeb分析ツールをMCPサーバーとして再構築し、シンプルなWeb分析、追跡可能なリンク、プロダクトインサイトツールをClaudeに直接公開。AIエージェントがコードやデータベースのコンテキストとともにサイトデータを活用できるようにした。

OpenClawRadar
ExposureGuard MCPサーバーがClaude Desktopにドメインセキュリティスキャン機能を追加
Tools

ExposureGuard MCPサーバーがClaude Desktopにドメインセキュリティスキャン機能を追加

開発者がClaude Codeを使用してドメインセキュリティスキャンのためのMCPサーバーを構築し、SPF、DMARC、SSL、セキュリティヘッダー、DNSSEC、開放ポート、MX、HTTPSをチェックする4つのツールを公開しました。このサーバーはpip install exposureguard-mcpで利用可能で、無料枠は1日あたり100回のAPI呼び出しです。

OpenClawRadar
HomeButler:APIキーなしでClaudeからホームラボサーバーを管理するMCPサーバー
Tools

HomeButler:APIキーなしでClaudeからホームラボサーバーを管理するMCPサーバー

HomeButlerは、APIキーを必要とせずにClaudeがホームラボサーバー上のセルフホストアプリをインストール、監視、管理できるMCPサーバーです。ローカルで動作し、すべての処理をネットワーク内に留め、Claude Codeで構築されました。

OpenClawRadar