Человеческие корни доверия: Установление ответственности для автономных агентов ИИ

Принцип Корня доверия человека решает основную проблему в цифровых системах: предположение, что за другим концом всегда находится человек. Поскольку автономные ИИ-агенты теперь выполняют задачи, которые раньше выполнялись только людьми, такие как управление транзакциями и подписание контрактов, возникает настоятельная необходимость в системах, которые могут связывать действия с подотчетными людьми.
Этот принцип вводит три основных столпа, необходимых для установления подотчетности в ИИ-системах:
- Доказательство человечности: Обеспечивает четкую связь между действиями агента и реальным человеком.
- Идентификатор устройства, основанный на оборудовании: Устанавливает целостность и подлинность устройства, гарантируя, что действия могут быть прослежены обратно к идентифицированному аппаратному источнику.
- Подтверждение действий: Предоставляет проверяемые доказательства того, что действия, предпринятые ИИ-агентами, являются подлинными и разрешенными человеком-первопричиной.
Архитектура включает шестиэтапную цепочку доверия, связывающую человека-первопричину с криптографической квитанцией, обеспечивая полную прослеживаемость действий. Корень доверия человека не является продуктом или стандартом, а принципом публичного домена, разработанным для создания систем, которые криптографически управляют и проверяют подотчетность.
Реализаторам, таким как специалисты по безопасности, криптографы и юридические эксперты, рекомендуется развивать и уточнять этот принцип, который доступен бесплатно без патентных претензий или требований по атрибуции пользователей. Поскольку ИИ-агенты становятся все более распространенными, подобные принципы будут играть ключевую роль в ответах на вопросы подотчетности со стороны регулирующих органов.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

Nullgaze: Выпущен открытую исходный код сканер безопасности с поддержкой ИИ.
Nullgaze — это новый открытый проект, поддерживаемый ИИ, который сканирует безопасность и выявляет уязвимости, специфичные для кода, сгенерированного ИИ, с почти нулевым количеством ложных срабатываний.

Анализ инструментирования и возможностей телеметрии Claude Code
Анализ исходного кода показывает, что Claude Code реализует обширное отслеживание поведения, включая классификацию настроений на основе ключевых слов, мониторинг колебаний при запросах разрешений и детальное снятие отпечатков окружения.

Результаты проверки безопасности для ИИ-агентов OpenClaw, PicoClaw, ZeroClaw, IronClaw и Minion.
В ходе оценки безопасности пяти ИИ-агентов для написания кода было протестировано 145 атакующих векторов в 12 категориях, включая инъекцию промптов, джейлбрейкинг и эксфильтрацию данных. OpenClaw набрал 77,8/100 с критическими уязвимостями SQL-инъекций, в то время как Minion улучшил результат с 81,2 до 94,4/100 после исправлений.

Использование FastAPI Guard для защиты экземпляров OpenClaw от атак.
FastAPI Guard предоставляет промежуточное ПО, которое добавляет 17 проверок безопасности, включая фильтрацию IP, геоблокировку, ограничение скорости и обнаружение проникновений. Инструмент блокирует атаки, подобные задокументированным в аудитах безопасности OpenClaw, показывающим 512 уязвимостей и более 40 000 открытых экземпляров.