GLiGuard: 16x быстрее LLM-фильтров, 300M параметров

Fastino Labs открыла исходный код GLiGuard — модели модерации безопасности, которая заменяет генеративные ограждения классификационным подходом. Энкодер с 300 млн параметров обрабатывает четыре задачи модерации за один прямой проход, достигая точности, сопоставимой с декодерными моделями на 7–27 млрд параметров, сокращая задержку до 16 раз. Веса доступны под лицензией Apache 2.0 на Hugging Face, инференс также доступен на Pioneer.

Почему декодерные ограждения медленны

Современные ограждения (например, Llama Guard) используют декодерные трансформеры, генерирующие вердикты токен за токеном. Такая последовательная генерация делает их медленными и дорогими для фильтрации в реальном времени. Большинство также оценивает аспекты безопасности отдельно, увеличивая задержку. При 7–27 млрд параметров такие модели дороги в масштабировании.

Подход энкодера GLiGuard

GLiGuard переосмысливает модерацию как классификацию текста. Он кодирует как входной текст, так и метки задач, оценивая все метки одновременно за один проход. Добавление новых аспектов безопасности (меток) не увеличивает время инференса. Модель обрабатывает четыре параллельные задачи:

Классификация безопасности — безопасно / небезопасно для запросов пользователя и ответов модели
Обнаружение стратегий джейлбрейка — 11 категорий (инъекция запросов, обход ролевой игры, переопределение инструкций, социальная инженерия и др.)
Обнаружение категорий вреда — 14 категорий (насилие, сексуальный контент, разжигание ненависти, PII, дезинформация, безопасность детей, нарушение авторских прав и др.)
Обнаружение отказов — соответствие или отказ, используется для измерения чрезмерных отказов и ложного согласия

Все четыре задачи оцениваются вместе, тогда как декодерные модели потребовали бы последовательных проходов или нескольких вызовов.

Тесты и производительность

На девяти бенчмарках безопасности GLiGuard сравнивается или превосходит модели в 23–90 раз больше, работая до 16 раз быстрее. В посте не приводятся конкретные показатели точности, но утверждается, что производительность сопоставима с ведущими генеративными ограждениями.

Для кого это

Для команд, развертывающих LLM-агентов или чат-системы, которым требуется низкая задержка и экономически эффективная фильтрация безопасности в реальном времени в масштабе.

📖 Источник: HN AI Agents

GLiGuard: открытая модель контроля безопасности с 300 миллионами параметров обещает ускорение в 16 раз по сравнению с LLM-фильтрами

Почему декодерные ограждения медленны

Подход энкодера GLiGuard

Тесты и производительность

Для кого это

👀 Смотрите также

Технические проблемы Ollama и споры в сообществе

Разработчик создает MCP-сервер для интеграции Claude с WhatsApp, делится трудностями

Помощь в установке OpenClaw от ClawSet

Attesor: Обратная разработка на основе ИИ Rosetta 2 для виртуальной машины Linux