ThumbGate: Паттерн NLAH для безопасности ИИ-агентов

Реализация ThumbGate шаблона NLAH

Шаблон Natural-Language Agent Harness (NLAH) из статьи университета Цинхуа (arxiv 2603.25723) формализует подход к уровням безопасности ИИ-агентов как к объектам первого класса с конкретными компонентами. Инструмент с открытым исходным кодом ThumbGate реализует этот шаблон с конкретными сопоставлениями для производственных систем.

Сопоставление компонентов

ThumbGate сопоставляет четыре компонента NLAH с практическими реализациями:

Контракты → Правила предотвращения, автоматически генерируемые из негативных отзывов
Шлюзы проверки → Хуки PreToolUse, которые перехватывают каждый вызов инструмента перед выполнением
Устойчивое состояние → База данных уроков SQLite+FTS5, сохраняющаяся между сессиями
Адаптеры → Адаптеры сервера MCP для Claude Code, Cursor, Codex, Gemini, Amp

Ключевые инсайты реализации

Разработчики обнаружили, что правила в промптах терпят неудачу молча (агенты могут обходить их с помощью рассуждений), тогда как шлюзы проверки терпят неудачу громко (агенты получают ответы о блокировке и должны адаптироваться). Они используют метод Томпсона для обработки неопределенных уровней серьёзности, где новые правила начинаются как предупреждения и повышаются до жёстких блокировок на основе обратной связи.

Полные детали реализации и сопоставления доступны в их подробной документации.

📖 Прочитать полный источник: r/LocalLLaMA

ThumbGate реализует паттерн управления агентами на естественном языке от Цинхуа для обеспечения безопасности ИИ.

Реализация ThumbGate шаблона NLAH

Сопоставление компонентов

Ключевые инсайты реализации

👀 Смотрите также

ClawProxy: Самостоятельно размещаемый прокси-сервер с маршрутизацией ИИ и панелью управления

Infracost сокращает использование токенов Claude на 79% за счет перепроектирования CLI для AI-агентов

Пленг: Самостоятельно размещаемая облачная платформа с управлением инфраструктурой на основе искусственного интеллекта

Blip MCP Server: Отображать изменения пользовательского интерфейса для кода Claude вместо их описания