PromptForest: Lokale Eingabeinjektion Detection mit Unsicherheit

PromptForest ist eine neue lokal zuerst gedachte Bibliothek, die entwickelt wurde, um die häufigen Probleme zu lösen, die bei aktuellen Erkennungsmodellen für Eingabeaufforderungsinjektionen auftreten. Sie zielt darauf ab, Eingabeaufforderungsinjektionen und Jailbreaks effizient und mit einem Maß an Unsicherheit zu erkennen, um übertriebene Zuversicht in die Ergebnisse zu vermeiden. Dieser Ansatz unterscheidet sie von traditionellen Systemen, insbesondere indem sie die Leistung aufrecht erhält und gleichzeitig differenziertere Ausgaben bietet.

Wichtige Details

Eines der grundlegenden Probleme mit bestehenden Injektionsdetektoren ist die Abhängigkeit von großen Modellen wie Llama 2 8B und Qualifire Sentinel 0.6B. Diese Modelle sind nicht nur langsam, sondern ihre Überzuversicht in die Ergebnisse kann zu falsch positiven Ergebnissen führen, die ihr Vertrauen in Produktionsszenarien untergraben. Angesichts dieser Einschränkungen nutzt PromptForest eine Abstimmungsmethode mit einem Ensemble, das aus drei kleineren, spezialisierten Modellen besteht:

Llama Prompt Guard (86M): Bietet den höchsten erwarteten Kalibrierungsfehler (ECE) in seiner Gewichtsklasse vor dem Ensemble.
Vijil Dome (ModernBERT): Liefert die höchste Genauigkeit pro Parameter.
Custom XGBoost: Trainiert auf Einbettungen für architektonische Diversität.

Diese Modelle verwenden gemeinsam eine gewichtete Soft-Voting-Methode, um Ergebnisse zu bestimmen, bei der genauere Modelle einen größeren Einfluss haben. Diese Methode vereinfacht die Entscheidungsfindung und gewährleistet gleichzeitig hohe Genauigkeit und Konsistenz.

Benchmark-Tests zeigen, dass PromptForest mit einer durchschnittlichen Latenz von ~141 ms arbeitet, im Vergleich zu ~225 ms für den Qualifire Sentinel v2, während eine vergleichbare Genauigkeit von 90 % gegenüber deren 97 % erzielt wird. Die Kalibrierungs-ECE schneidet ebenfalls gut ab mit 0.070 im Vergleich zu Sentinels 0.096. Auch die Durchsatzrate ist beeindruckend, mit etwa 27 verarbeiteten Eingabeaufforderungen pro Sekunde auf einer Verbrauchergrafikkarte mit dem pfranger CLI.

Für Tests und Implementierungen können Entwickler mit PromptForest auf Google Colab experimentieren oder Eingabeaufforderungen mit dem PFRanger-Tool auditieren, das vollständig lokal funktioniert. PFRanger nutzt Parallelisierung, um Geschwindigkeit und Durchsatz zu erhöhen.

📖 Den vollständigen Artikel lesen: r/LocalLLaMA

PromptForest: Lokale-First Eingabeinjektionsdetektion mit Unsicherheit

Wichtige Details

👀 Siehe auch

apple-music-play OpenClaw-Skill auf ClawHub veröffentlicht für Apple Music Suche und Wiedergabe

OpenSwarm: Multi-Agent Claude CLI Orchestrator für Linear und GitHub

United States Code als Git-Repository mit vollständiger Änderungshistorie verfügbar

Sponsio: Deterministische Sicherheitsvorkehrungen für OpenClaw – Blockierung von „legalen, aber falschen“ Tool-Aufrufen