PromptForest: Обнаружение инъекций промптов с приоритетом локальности и учетом неопределенности

✍️ OpenClawRadar📅 Опубликовано: 14 февраля 2026 г.🔗 Source
PromptForest: Обнаружение инъекций промптов с приоритетом локальности и учетом неопределенности
Ad

PromptForest — это новая библиотека с приоритетом локальности, созданная для решения проблем, часто встречающихся в современных системах обнаружения инъекций запросов. Она направлена на эффективное обнаружение инъекций запросов и джейлбрейков с учетом неопределенности, чтобы избежать избыточной уверенности в результатах. Такой подход отличает ее от традиционных систем, поскольку она сохраняет производительность, одновременно предоставляя более детализированные выводы.

Ad

Ключевые детали

Одной из основных проблем существующих детекторов инъекций является зависимость от крупных моделей, таких как Llama 2 8B и Qualifire Sentinel 0.6B. Эти модели не только медленны, но и их избыточная уверенность в результатах может привести к ложным срабатываниям, что подрывает их надежность в производственных сценариях. Осознавая эти ограничения, PromptForest использует метод голосования, состоящий из трех меньших специализированных моделей:

  • Llama Prompt Guard (86M): Демонстрирует наивысшую предсобранную Ошибку Калибровки Ожидания (ECE) в своем классе веса.
  • Vijil Dome (ModernBERT): Предоставляет наивысшую точность на параметр.
  • Custom XGBoost: Обучена на встраиваниях для архитектурного разнообразия.

Эти модели коллективно используют метод мягкого голосования с учетом веса для определения результатов, где более точные модели имеют большее влияние. Этот метод упрощает процесс принятия решений при высокой точности и согласованности.

Бенчмаркинг показывает, что PromptForest работает со средней задержкой около 141 мс, по сравнению с 225 мс для Qualifire Sentinel v2, при этом обеспечивая сопоставимую точность в 90% против их 97%. Калибровочная ECE также показывает хорошие результаты и составляет 0.070 против 0.096 у Sentinel. Пропускная способность также впечатляет, примерно 27 запросов обрабатывается в секунду на потребительском GPU с помощью pfranger CLI.

Для тестирования и реализации разработчики могут экспериментировать с PromptForest на Google Colab или проверять запросы с помощью инструмента PFRanger, который работает полностью локально. PFRanger использует параллелизацию для повышения скорости и пропускной способности.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Использование Claude Code для возрождения заброшенных личных проектов: практическое руководство
Инструменты

Использование Claude Code для возрождения заброшенных личных проектов: практическое руководство

Мэттью Брюнелл рассказывает, как он использовал Claude Code (с Opus 4.6), чтобы оживить заброшенный проект-прослойку между YouTube Music и OpenSubsonic API, включая шаги по настройке, промпты и советы по рабочему процессу.

OpenClawRadar
Новый API структурированных данных предлагает подписочные цены для агентов LLM.
Инструменты

Новый API структурированных данных предлагает подписочные цены для агентов LLM.

Разработчик выпустил структурированный API данных, который нормализует цены на подписки для стриминговых платформ, сервисов совместных поездок, приложений для знакомств и других платформ на основе подписок. API предоставляет единообразные JSON-схемы, цены с учетом региона (где доступно) и MCP-совместимые конечные точки для потребления агентами LLM без скрапинга.

OpenClawRadar
Tilde.run: Песочница для агентов с транзакционной версионированной файловой системой
Инструменты

Tilde.run: Песочница для агентов с транзакционной версионированной файловой системой

Tilde.run предоставляет изолированные, обратимые песочницы для AI-агентов, с версионируемой файловой системой, которая монтирует GitHub, S3 и Google Drive, и сетевой изоляцией по умолчанию.

OpenClawRadar
Клод Сыщик: 56-шаговая рабочая процедура для расследований с помощью Claude AI
Инструменты

Клод Сыщик: 56-шаговая рабочая процедура для расследований с помощью Claude AI

Claude Sleuth — это структурированный рабочий процесс для расследований в Claude AI, состоящий из 6 этапов и 56 задач. Он включает постоянное хранение состояния через Cloudflare D1 и стандартизированные соглашения о выводе данных, такие как временные метки ISO 8601, записи сущностей по схеме POLE и вероятностный язык ICD 203.

OpenClawRadar