Подход Виталика Бутерина к безопасной локальной настройке LLM

Виталик Бутерин описывает свой подход к созданию приватной, безопасной и самоуправляемой настройки языковой модели, которая решает растущие проблемы безопасности ИИ-агентов и приватности данных.
Рассматриваемые проблемы безопасности
Бутерин выделяет несколько конкретных проблем приватности и безопасности, которые он пытается смягчить:
- Приватность (языковая модель): Удалённые модели получают приватные данные, которые могут быть использованы или проданы позже
- Приватность (другое): Утечка не-LLM данных через интернет-поисковые запросы и другие онлайн-API
- Взломы языковой модели: Удалённый контент «взламывает» языковую модель, заставляя её действовать против интересов пользователя
- Несчастные случаи с языковой моделью: Случайная отправка языковой моделью приватных данных по неправильным каналам
- Бэкдоры в языковой модели: Скрытые механизмы, встроенные в языковую модель при обучении, которые запускают действия в интересах создателя
- Ошибки и бэкдоры в ПО: Снижение зависимости от сторонних программ через код, написанный ИИ по индивидуальному заказу
Текущий ландшафт безопасности ИИ
В статье отмечается, что мейнстримный ИИ, включая локальный ИИ с открытым исходным кодом, часто не учитывает должным образом вопросы приватности и безопасности. Бутерин ссылается на конкретные критические замечания по безопасности агентов OpenClaw:
- Агенты могут изменять критические настройки без подтверждения человеком
- Обработка вредоносных внешних данных может привести к захвату экземпляра
- В одной демонстрации исследователи направили OpenClaw на суммирование веб-страниц, включая вредоносную страницу, которая приказала агенту загрузить и выполнить shell-скрипт
- Некоторые навыки содержат вредоносные инструкции, облегчающие скрытую эксфильтрацию данных
- Примерно 15% проанализированных навыков содержали вредоносные инструкции
Основные принципы
Настройка Бутерина следует этим ключевым принципам:
- Весь вывод языковой модели в первую очередь локальный
- Все файлы размещаются локально
- Изолировать всё
- Быть параноиком в отношении внешних интернет-угроз
Подход занимает жёсткую позицию по приватности и безопасности, хотя и не такую экстремальную, как физически изолированные настройки, используемые некоторыми коллегами.
📖 Прочитать полный источник: HN LLM Tools
👀 Смотрите также

Слепая повязка: Плагин, который не позволяет коду Claude читать ваши .env файлы
Blindfold — это новый плагин, который предотвращает доступ Claude Code к реальным секретным значениям в .env-файлах, сохраняя их в системном хранилище ключей и используя заполнители вроде {{STRIPE_KEY}}, с перехватчиками, блокирующими попытки прямого доступа.

Система ИИ обнаружила 12 уязвимостей нулевого дня в OpenSSL, а Curl отменил программу вознаграждений за баги из-за спама от ИИ.
ИИ-система AISLE обнаружила все 12 уязвимостей нулевого дня в последнем релизе безопасности OpenSSL, что стало первой крупномасштабной демонстрацией ИИ-кибербезопасности. В то же время curl отменил свою программу вознаграждений за обнаружение уязвимостей из-за спам-отчетов, сгенерированных ИИ.

Защитите и защитите OpenClaw всего за 2 минуты с помощью изоляции на основе Nono Kernel.
Пользователи OpenClaw теперь могут наслаждаться улучшенной безопасностью без ущерба для производительности благодаря изоляции на основе ядра Nono — быстрому и эффективному решению, которое занимает всего две минуты.

Уязвимость удаленного выполнения кода в ядре FreeBSD через переполнение буфера стека в kgssapi.ko (CVE-2026-4747)
Переполнение буфера стека в модуле kgssapi.ko FreeBSD позволяет удалённое выполнение кода в ядре с получением root-доступа через NFS-сервер. Уязвимость затрагивает версии FreeBSD 13.5, 14.3, 14.4 и 15.0 до установки определённых патчей.