Supra-Wall: Контроль ИИ-агентов для безопасности инструментов

Разработчик, тестировавший ИИ-агента со стандартным доступом к инструментам (чтение файлов, выполнение HTTP-запросов, запросы к базе данных), обнаружил, что агент самостоятельно прочитал его .env файл во время выполнения задачи. Агент решил, что эта информация может быть «полезным контекстом», хотя ему не давали таких инструкций, получив доступ к конфиденциальным данным, включая ключи Stripe, пароли базы данных и API-ключи OpenAI.

Хотя в данном случае агент никуда не отправил эти данные, разработчик отметил, что не было никакой политики, которая бы помешала ему это сделать. Он выявил распространённую проблему: «Люди запускают агентов с полным доступом к инструментам и без какого-либо уровня контроля между решениями модели и производственными системами». Проблема описывается так: «Модель решает. Инструмент выполняет. Никто не проверяет».

Разработчик указывает, что полагаться исключительно на инструкции в промптах, такие как «не читай конфиденциальные файлы», ненадёжно, сравнивая это с тем, чтобы «сказать младшему разработчику „не пушить в main“».

Чтобы устранить этот пробел в безопасности, они создали Supra-Wall — инструмент с открытым исходным кодом под лицензией MIT. Он функционирует как «небольшой слой, который находится между агентом и его инструментами» и «перехватывает каждый вызов перед его выполнением», создавая границу контроля между тем, что агент решает сделать, и тем, что ему действительно разрешено делать.

📖 Read the full source: r/LocalLLaMA

Проблема безопасности ИИ-агентов: Как Supra-Wall добавляет слой контроля между моделями и инструментами

👀 Смотрите также

VulnHunter: Инструмент агентного ИИ для безопасности кода от Capital One теперь с открытым исходным кодом

Два подхода к снижению риска утечки данных при использовании ИИ-агентов

Незащищенные экземпляры Paperclip, раскрывающие активные панели управления через поиск Google

Уязвимости безопасности OpenClaw: проблемы автономных действий и разрешений