ThumbGate met en œuvre le modèle de harnais d'agent en langage naturel de Tsinghua pour la sécurité de l'IA

✍️ OpenClawRadar📅 Publié: April 5, 2026🔗 Source
ThumbGate met en œuvre le modèle de harnais d'agent en langage naturel de Tsinghua pour la sécurité de l'IA
Ad

Implémentation de ThumbGate du schéma NLAH

Le schéma Natural-Language Agent Harness (NLAH) du document de Tsinghua (arxiv 2603.25723) formalise le traitement des couches de sécurité des agents d'IA comme des objets de première classe avec des composants spécifiques. L'outil open-source ThumbGate implémente ce schéma avec des associations concrètes aux systèmes de production.

Associations des composants

ThumbGate associe les quatre composants NLAH à des implémentations pratiques :

  • Contrats → Règles de prévention générées automatiquement à partir des retours négatifs
  • Portes de vérification → Crochets PreToolUse qui interceptent chaque appel d'outil avant exécution
  • État durable → Base de données de leçons SQLite+FTS5 qui persiste entre les sessions
  • Adaptateurs → Adaptateurs de serveur MCP pour Claude Code, Cursor, Codex, Gemini, Amp
Ad

Principales observations d'implémentation

Les développeurs ont constaté que les règles d'invite échouent silencieusement (les agents peuvent raisonner autour d'elles), tandis que les portes de vérification échouent bruyamment (les agents reçoivent des réponses de blocage et doivent s'adapter). Ils utilisent l'échantillonnage de Thompson pour gérer les niveaux de gravité incertains, où les nouvelles règles commencent comme des avertissements et sont promues en blocages durs en fonction des retours.

Les détails complets d'implémentation et d'association sont disponibles dans leur documentation approfondie.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Agent LLM Construit un Dungeon Crawler Complet dans Godot 4 en Utilisant un Retour Visuel
Tools

Agent LLM Construit un Dungeon Crawler Complet dans Godot 4 en Utilisant un Retour Visuel

Un développeur a connecté un agent LLM à Godot 4 en utilisant un outil MCP et lui a donné une seule instruction pour construire un FPS de type dungeon crawler. L'agent a créé un prototype complet avec 3 salles, un éclairage, des combats, des ennemis et une progression en lançant le jeu, en prenant des captures d'écran et en corrigeant les problèmes visuels.

OpenClawRadar
Agent MCP Studio: Construisez des systèmes multi-agents MCP entièrement dans un navigateur via WASM
Tools

Agent MCP Studio: Construisez des systèmes multi-agents MCP entièrement dans un navigateur via WASM

Agent MCP Studio vous permet de concevoir, orchestrer et exporter des systèmes d'agents MCP à partir d'un seul fichier HTML statique utilisant WebAssembly – sans backend, sans Docker, sans serveur.

OpenClawRadar
Serveur MCP Blip : Dessinez les modifications de l'interface utilisateur pour le code Claude au lieu de les décrire
Tools

Serveur MCP Blip : Dessinez les modifications de l'interface utilisateur pour le code Claude au lieu de les décrire

Blip est un serveur MCP pour Claude Code qui remplace les descriptions verbales de modifications d'interface utilisateur par des annotations visuelles. Vous dessinez directement sur votre application en cours d'exécution, et Claude écrit le code correspondant en fonction de la capture d'écran annotée.

OpenClawRadar
Claude Code Studio : Application de bureau open-source pour gérer plusieurs sessions de codage Claude
Tools

Claude Code Studio : Application de bureau open-source pour gérer plusieurs sessions de codage Claude

Claude Code Studio v0.9.3 est une application de bureau open-source qui fournit une interface multi-fenêtres pour gérer plusieurs sessions CLI Claude Code. Il résout les problèmes courants de flux de travail comme jongler avec les onglets de terminal, la persistance des sessions et la répétition des instructions.

OpenClawRadar