PromptForest : Détection d'injection de prompts local-first avec incertitude

PromptForest est une nouvelle bibliothèque locale créée pour résoudre les problèmes couramment observés avec les détecteurs d'injection de prompts actuels. Elle vise à détecter les injections de prompts et les jailbreaks efficacement et avec une mesure d'incertitude pour éviter une confiance excessive dans les résultats. Cette approche la différencie des systèmes traditionnels, notamment en maintenant les performances tout en fournissant des sorties plus nuancées.
Détails clés
L'un des problèmes fondamentaux des détecteurs d'injection existants est la dépendance à des modèles volumineux comme Llama 2 8B et Qualifire Sentinel 0.6B. Ces modèles sont non seulement lents, mais leur confiance excessive dans les résultats peut entraîner des faux positifs qui compromettent leur fiabilité dans les scénarios de production. Conscient de ces limites, PromptForest utilise une méthode d'ensemble de vote comprenant trois modèles plus petits et spécialisés :
- Llama Prompt Guard (86M) : Offre l'erreur d'étalonnage attendue (ECE) pré-ensemble la plus élevée dans sa catégorie de poids.
- Vijil Dome (ModernBERT) : Fournit la plus grande précision par paramètre.
- Custom XGBoost : Entraîné sur des embeddings pour une diversité architecturale.
Ces modèles utilisent collectivement une méthode de vote pondéré pour déterminer les résultats, où les modèles plus précis ont une influence plus grande. Cette méthode simplifie la prise de décision tout en maintenant une grande précision et cohérence.
Les tests comparatifs montrent que PromptForest fonctionne avec une latence moyenne d'environ 141 ms, contre environ 225 ms pour le Qualifire Sentinel v2, tout en offrant une précision comparable de 90 % contre leurs 97 %. L'erreur d'étalonnage (ECE) est également bonne à 0,070 contre 0,096 pour Sentinel. Le débit est également impressionnant, avec environ 27 prompts traités par seconde sur un GPU grand public en utilisant l'interface pfranger.
Pour les tests et la mise en œuvre, les développeurs peuvent expérimenter PromptForest sur Google Colab ou auditer les prompts avec l'outil PFRanger, qui fonctionne entièrement localement. PFRanger utilise le parallélisme pour améliorer la vitesse et le débit.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Bot Telegram pour le contrôle CLI de Claude Code depuis un mobile
Un développeur a créé un bot Telegram qui fait le pont avec l'interface en ligne de commande Claude Code, permettant un contrôle via des commandes mobiles comme /commit, /code_review et /simplify. Le bot découvre automatiquement les compétences personnalisées, traite les photos/documents/notes vocales et prend en charge les sessions de chat de groupe.

Gestionnaire de projet de style Trello local pour agents OpenClaw utilisant des fichiers markdown
Un développeur a créé un tableau Trello local pour gérer des projets avec des agents OpenClaw, utilisant Node.js + Express pour l'API, React + react-trello pour l'interface utilisateur, et des fichiers markdown avec un en-tête YAML comme couche de données. Le système fonctionne sur la machine OpenClaw et est accessible localement, les agents lisant et écrivant directement les fichiers de cartes sur le système de fichiers.

Développeur Construit l'Application LibraHQ pour Résoudre le Problème de Mémoire des Agents IA
Un développeur a créé LibraHQ, une application de prise de notes gratuite qui sert de couche de mémoire partagée entre les chatbots et les agents de codage. L'application enregistre les notes et décisions importantes des conversations et les stocke pour les sessions futures, résolvant ainsi le problème des agents d'IA qui oublient les décisions précédemment prises.

OpenHelm : Un Planificateur de Tâches en Arrière-plan Local pour Claude Code avec Logique de Réessai Autocorrectrice
OpenHelm est une application basée sur Tauri qui exécute des tâches Claude Code en arrière-plan selon un planning, stocke tous les états localement dans SQLite, et inclut une boucle de réessai auto-correctrice qui ajuste les instructions après des échecs.