Any-Guardrailで多言語LLMガードレール評価：人道支援AI

FlowJudge: 1〜5のリッカート尺度を使用して回答の安全性を評価するカスタマイズ可能なツール。
Glider: 0〜4のルーブリックを使用して回答の準拠性を評価する別のカスタマイズ可能なガードレール。
AnyLLM (GPT-5-nano): ポリシー遵守に基づく二値分類のために汎用LLMを展開します。

Mozillaは、any-guardrailツールを使用して人道支援AIアプリケーションにおける多言語で文脈を考慮したガードレールの評価を詳細に説明しました。この評価は、特に複雑な人道支援の文脈において、ガードレールが異なる言語間でどのように機能するかに焦点を当てています。

主な詳細

この実験には、Mozillaの2つの主要プロジェクトが関与しました：多言語AI安全性評価とany-guardrailフレームワークです。Pakzadのシナリオ設計とガードレールポリシーがこの研究に情報を提供し、一方でNissaniのオープンソース「any-guardrail」パッケージが技術的構造を提供しました。

any-guardrailは、分類器ベースおよび生成型ガードレールモデルの統一インターフェースを提供し、組織がこれらをモデル自体と共に設定できるようにします。この柔軟性は、特定の文脈やドメイン向けにガードレールを調整する上で重要です。

3つのガードレールが使用されました：