GLiGuard: открытая модель контроля безопасности с 300 миллионами параметров обещает ускорение в 16 раз по сравнению с LLM-фильтрами

✍️ OpenClawRadar📅 Опубликовано: 13 мая 2026 г.🔗 Source
Ad

Fastino Labs открыла исходный код GLiGuard — модели модерации безопасности, которая заменяет генеративные ограждения классификационным подходом. Энкодер с 300 млн параметров обрабатывает четыре задачи модерации за один прямой проход, достигая точности, сопоставимой с декодерными моделями на 7–27 млрд параметров, сокращая задержку до 16 раз. Веса доступны под лицензией Apache 2.0 на Hugging Face, инференс также доступен на Pioneer.

Почему декодерные ограждения медленны

Современные ограждения (например, Llama Guard) используют декодерные трансформеры, генерирующие вердикты токен за токеном. Такая последовательная генерация делает их медленными и дорогими для фильтрации в реальном времени. Большинство также оценивает аспекты безопасности отдельно, увеличивая задержку. При 7–27 млрд параметров такие модели дороги в масштабировании.

Ad

Подход энкодера GLiGuard

GLiGuard переосмысливает модерацию как классификацию текста. Он кодирует как входной текст, так и метки задач, оценивая все метки одновременно за один проход. Добавление новых аспектов безопасности (меток) не увеличивает время инференса. Модель обрабатывает четыре параллельные задачи:

  • Классификация безопасности — безопасно / небезопасно для запросов пользователя и ответов модели
  • Обнаружение стратегий джейлбрейка — 11 категорий (инъекция запросов, обход ролевой игры, переопределение инструкций, социальная инженерия и др.)
  • Обнаружение категорий вреда — 14 категорий (насилие, сексуальный контент, разжигание ненависти, PII, дезинформация, безопасность детей, нарушение авторских прав и др.)
  • Обнаружение отказов — соответствие или отказ, используется для измерения чрезмерных отказов и ложного согласия

Все четыре задачи оцениваются вместе, тогда как декодерные модели потребовали бы последовательных проходов или нескольких вызовов.

Тесты и производительность

На девяти бенчмарках безопасности GLiGuard сравнивается или превосходит модели в 23–90 раз больше, работая до 16 раз быстрее. В посте не приводятся конкретные показатели точности, но утверждается, что производительность сопоставима с ведущими генеративными ограждениями.

Для кого это

Для команд, развертывающих LLM-агентов или чат-системы, которым требуется низкая задержка и экономически эффективная фильтрация безопасности в реальном времени в масштабе.

📖 Источник: HN AI Agents

Ad

👀 Смотрите также

Сервер Savecraft MCP предоставляет Клоду точные данные по Magic: The Gathering.
Инструменты

Сервер Savecraft MCP предоставляет Клоду точные данные по Magic: The Gathering.

Savecraft — это сервер MCP с открытым исходным кодом, который локально анализирует файл Player.log из MTG Arena, синхронизирует состояние игры и предоставляет Claude доступ к 12 экспертным справочным модулям, созданным на основе реальных данных Magic: The Gathering. Инструмент предотвращает галлюцинации Claude в отношении названий карт и правил, предоставляя доступ к фактическим данным Arena, рекомендациям по драфту от 17Lands и полной базе данных Scryfall.

OpenClawRadar
MiniMax Music 2.5 AI Music Generator выпущен с профессиональным контролем качества звука в студии.
Инструменты

MiniMax Music 2.5 AI Music Generator выпущен с профессиональным контролем качества звука в студии.

MiniMax Music 2.5 — это модель генерации музыки на основе ИИ, которая создаёт студийные композиции с Hi-Fi-выходом 44,1 кГц, более чем 100 инструментами и точным контролем на уровне абзацев с использованием 14+ структурных тегов для управления структурой песни.

OpenClawRadar
Лукас Герадс демонстрирует серверы MCP для интеграции осциллографа и симулятора SPICE с Claude Code.
Инструменты

Лукас Герадс демонстрирует серверы MCP для интеграции осциллографа и симулятора SPICE с Claude Code.

Лукас Герадс создал MCP-серверы для своего осциллографа LeCroy и симулятора SPICE, что позволило Claude Code проверять SPICE-схемы и модели, работать с встраиваемым программированием и автоматизировать задачи анализа данных, такие как нормализация временной оси и выравнивание данных.

OpenClawRadar
Итан AI: Европейский хаб API для моделей ИИ — переориентируется как альтернатива OpenRouter
Инструменты

Итан AI: Европейский хаб API для моделей ИИ — переориентируется как альтернатива OpenRouter

Eden AI предлагает единый унифицированный API для доступа к более чем 500 моделям ИИ (LLM, компьютерное зрение, OCR, речь) с умной маршрутизацией, механизмами отказоустойчивости и контролем региона. Позиционируется как европейская альтернатива OpenRouter.

OpenClawRadar