PromptForest: Обнаружение инъекций промптов с приоритетом локальности и учетом неопределенности

PromptForest — это новая библиотека с приоритетом локальности, созданная для решения проблем, часто встречающихся в современных системах обнаружения инъекций запросов. Она направлена на эффективное обнаружение инъекций запросов и джейлбрейков с учетом неопределенности, чтобы избежать избыточной уверенности в результатах. Такой подход отличает ее от традиционных систем, поскольку она сохраняет производительность, одновременно предоставляя более детализированные выводы.
Ключевые детали
Одной из основных проблем существующих детекторов инъекций является зависимость от крупных моделей, таких как Llama 2 8B и Qualifire Sentinel 0.6B. Эти модели не только медленны, но и их избыточная уверенность в результатах может привести к ложным срабатываниям, что подрывает их надежность в производственных сценариях. Осознавая эти ограничения, PromptForest использует метод голосования, состоящий из трех меньших специализированных моделей:
- Llama Prompt Guard (86M): Демонстрирует наивысшую предсобранную Ошибку Калибровки Ожидания (ECE) в своем классе веса.
- Vijil Dome (ModernBERT): Предоставляет наивысшую точность на параметр.
- Custom XGBoost: Обучена на встраиваниях для архитектурного разнообразия.
Эти модели коллективно используют метод мягкого голосования с учетом веса для определения результатов, где более точные модели имеют большее влияние. Этот метод упрощает процесс принятия решений при высокой точности и согласованности.
Бенчмаркинг показывает, что PromptForest работает со средней задержкой около 141 мс, по сравнению с 225 мс для Qualifire Sentinel v2, при этом обеспечивая сопоставимую точность в 90% против их 97%. Калибровочная ECE также показывает хорошие результаты и составляет 0.070 против 0.096 у Sentinel. Пропускная способность также впечатляет, примерно 27 запросов обрабатывается в секунду на потребительском GPU с помощью pfranger CLI.
Для тестирования и реализации разработчики могут экспериментировать с PromptForest на Google Colab или проверять запросы с помощью инструмента PFRanger, который работает полностью локально. PFRanger использует параллелизацию для повышения скорости и пропускной способности.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Представляем Lean Collab: многопользовательский оркестратор для длительных задач LLM.
Lean Collab — это оркестратор с открытым исходным кодом, предназначенный для управления долгосрочными задачами LLM с использованием координированных, параллельных подагентов.

Claude Code добавляет систему многопользовательского рецензирования кода
Anthropic запустила Code Review для Claude Code — многозадачную систему, которая распределяет команды ИИ-агентов для проверки пулл-реквестов. Система выявляет ошибки, которые часто пропускают люди-ревьюеры: теперь 54% PR получают содержательные комментарии по сравнению с 16% ранее.

context-os: Инструмент с открытым исходным кодом снижает потребление токенов в Claude Code на 27–42%.
context-os — это локальный оптимизатор контекста, который автоматически подключается к Claude Code, сжимая вывод инструментов до того, как Claude их увидит, и сокращая потребление токенов на 27–42% в зависимости от типа контента.

Оценка покупателя: Навык Claude для оценки поставщиков B2B с использованием диалогов с ИИ-агентами
Навык Claude, который оценивает B2B-поставщиков программного обеспечения, исследуя вашу компанию, задавая вопросы по предметной области и напрямую опрашивая AI-агентов поставщиков через Salespeak Frontdoor API. Он сопоставляет заявления с независимыми источниками и создает основанные на доказательствах оценочные карточки с прозрачными уровнями верификации.