プロンプトフォレスト：ローカルファーストのプロンプトインジェクション検出ライブラリ

PromptForestは、現在のプロンプトインジェクション検出器でよく見られる問題に対処するために作成された新しいローカルファーストライブラリです。プロンプトインジェクションとジェイルブレイクを効率的に検出し、結果に対する過信を避けるために不確実性の尺度を提供することを目指しています。このアプローチは、特にパフォーマンスを維持しながら、よりニュアンスのある出力を提供することで、従来のシステムと区別されます。

主な詳細

既存のインジェクション検出器の根本的な問題の一つは、Llama 2 8BやQualifire Sentinel 0.6Bのような大規模モデルへの依存です。これらのモデルは遅いだけでなく、結果に対する過信により誤検知が発生し、本番環境での信頼性を損なう可能性があります。これらの制限を認識し、PromptForestは3つの小型で専門化されたモデルからなる投票アンサンブル手法を活用しています：

Llama Prompt Guard (86M): その重量クラスで最高の事前アンサンブル期待較正誤差（ECE）を提供します。
Vijil Dome (ModernBERT): パラメータあたり最高の精度を提供します。
カスタムXGBoost: アーキテクチャの多様性のために埋め込みでトレーニングされています。

これらのモデルは、より正確なモデルがより大きな影響力を持つ加重ソフト投票方法を使用して結果を決定します。この方法は、高い精度と一貫性を維持しながら意思決定を簡素化します。

ベンチマークによると、PromptForestは平均レイテンシ約141msで動作し、Qualifire Sentinel v2の約225msと比較して、97%に対して90%の同等の精度を提供します。較正ECEも、Sentinelの0.096に対して0.070と良好な結果を示しています。スループットも印象的で、pfranger CLIを使用したコンシューマーGPUで、約27プロンプトが毎秒処理されます。

テストと実装のために、開発者はGoogle ColabでPromptForestを試したり、完全にローカルで動作するPFRangerツールでプロンプトを監査したりできます。PFRangerは並列化を利用して速度とスループットを向上させます。

📖 完全なソースを読む： r/LocalLLaMA

プロンプトフォレスト：不確実性を考慮したローカルファーストのプロンプトインジェクション検出

主な詳細

👀 See Also

Linki v2：自己ホストエージェントによるLinkedIn + コールドメールのためのオープンソースAI SDR

Claude CodeとMCPによるDatadogアラートトリアージの自動化

Phalanx CLIは、自動化されたコードレビューサイクルのために複数のAIエージェントを調整します。

Apple Silicon向けAIエージェントのローカル音声コントロール設定