PromptForest: Обнаружение инъекций промптов с учетом неопределенности

PromptForest — это новая библиотека с приоритетом локальности, созданная для решения проблем, часто встречающихся в современных системах обнаружения инъекций запросов. Она направлена на эффективное обнаружение инъекций запросов и джейлбрейков с учетом неопределенности, чтобы избежать избыточной уверенности в результатах. Такой подход отличает ее от традиционных систем, поскольку она сохраняет производительность, одновременно предоставляя более детализированные выводы.

Ключевые детали

Одной из основных проблем существующих детекторов инъекций является зависимость от крупных моделей, таких как Llama 2 8B и Qualifire Sentinel 0.6B. Эти модели не только медленны, но и их избыточная уверенность в результатах может привести к ложным срабатываниям, что подрывает их надежность в производственных сценариях. Осознавая эти ограничения, PromptForest использует метод голосования, состоящий из трех меньших специализированных моделей:

Llama Prompt Guard (86M): Демонстрирует наивысшую предсобранную Ошибку Калибровки Ожидания (ECE) в своем классе веса.
Vijil Dome (ModernBERT): Предоставляет наивысшую точность на параметр.
Custom XGBoost: Обучена на встраиваниях для архитектурного разнообразия.

Эти модели коллективно используют метод мягкого голосования с учетом веса для определения результатов, где более точные модели имеют большее влияние. Этот метод упрощает процесс принятия решений при высокой точности и согласованности.

Бенчмаркинг показывает, что PromptForest работает со средней задержкой около 141 мс, по сравнению с 225 мс для Qualifire Sentinel v2, при этом обеспечивая сопоставимую точность в 90% против их 97%. Калибровочная ECE также показывает хорошие результаты и составляет 0.070 против 0.096 у Sentinel. Пропускная способность также впечатляет, примерно 27 запросов обрабатывается в секунду на потребительском GPU с помощью pfranger CLI.

Для тестирования и реализации разработчики могут экспериментировать с PromptForest на Google Colab или проверять запросы с помощью инструмента PFRanger, который работает полностью локально. PFRanger использует параллелизацию для повышения скорости и пропускной способности.

📖 Читать полный источник: r/LocalLLaMA

PromptForest: Обнаружение инъекций промптов с приоритетом локальности и учетом неопределенности

Ключевые детали

👀 Смотрите также

Клод Код АФК-агент: Запуск автономных работников с поддержкой Discord через плагин Teams

Навык OpenClaw сокращает количество токенов в дереве доступности с 600 тысяч до 1,3 тысячи.

MoltPoker.xyz: Техасский Холдем с виртуальными фишками для ИИ-агентов

Google Research представляет TurboQuant для сжатия моделей искусственного интеллекта