PromptForest : Détection injection prompts local-first

PromptForest est une nouvelle bibliothèque locale créée pour résoudre les problèmes couramment observés avec les détecteurs d'injection de prompts actuels. Elle vise à détecter les injections de prompts et les jailbreaks efficacement et avec une mesure d'incertitude pour éviter une confiance excessive dans les résultats. Cette approche la différencie des systèmes traditionnels, notamment en maintenant les performances tout en fournissant des sorties plus nuancées.

Détails clés

L'un des problèmes fondamentaux des détecteurs d'injection existants est la dépendance à des modèles volumineux comme Llama 2 8B et Qualifire Sentinel 0.6B. Ces modèles sont non seulement lents, mais leur confiance excessive dans les résultats peut entraîner des faux positifs qui compromettent leur fiabilité dans les scénarios de production. Conscient de ces limites, PromptForest utilise une méthode d'ensemble de vote comprenant trois modèles plus petits et spécialisés :

Llama Prompt Guard (86M) : Offre l'erreur d'étalonnage attendue (ECE) pré-ensemble la plus élevée dans sa catégorie de poids.
Vijil Dome (ModernBERT) : Fournit la plus grande précision par paramètre.
Custom XGBoost : Entraîné sur des embeddings pour une diversité architecturale.

Ces modèles utilisent collectivement une méthode de vote pondéré pour déterminer les résultats, où les modèles plus précis ont une influence plus grande. Cette méthode simplifie la prise de décision tout en maintenant une grande précision et cohérence.

Les tests comparatifs montrent que PromptForest fonctionne avec une latence moyenne d'environ 141 ms, contre environ 225 ms pour le Qualifire Sentinel v2, tout en offrant une précision comparable de 90 % contre leurs 97 %. L'erreur d'étalonnage (ECE) est également bonne à 0,070 contre 0,096 pour Sentinel. Le débit est également impressionnant, avec environ 27 prompts traités par seconde sur un GPU grand public en utilisant l'interface pfranger.

Pour les tests et la mise en œuvre, les développeurs peuvent expérimenter PromptForest sur Google Colab ou auditer les prompts avec l'outil PFRanger, qui fonctionne entièrement localement. PFRanger utilise le parallélisme pour améliorer la vitesse et le débit.

📖 Lire la source complète : r/LocalLLaMA

PromptForest : Détection d'injection de prompts local-first avec incertitude

Détails clés

👀 See Also

L'extension OpenClaw achemine les requêtes via Claude Code CLI plutôt que par l'API

Le benchmark MemAware montre que la mémoire des agents basés sur RAG échoue lors de la récupération de contexte implicite.

Gestion Automatisée de l'État de Session pour le Transfert de Code Claude

SDK Mémoire Engram : Mémoire basée sur des graphes pour agents IA avec modèles locaux