GLiGuard: 300Mパラメータ安全モデル、LLMより16倍高速

Fastino Labsは、生成型ガードレールを分類アプローチに置き換えた安全性モデレーションモデルGLiGuardをオープンソース化しました。3億パラメータのエンコーダは、1回のフォワードパスで4つのモデレーションタスクを処理し、7B～27Bパラメータのデコーダモデルと同等の精度を達成しつつ、レイテンシを最大16倍削減します。ウェイトはApache 2.0ライセンスでHugging Face上で利用可能で、Pioneer上でも推論が利用できます。

デコーダベースのガードレールが遅い理由

現在の最先端ガードレール（例：Llama Guard）はデコーダのみのトランスフォーマーを使用し、トークンごとに判定を生成します。この逐次生成により、リアルタイムの安全性フィルタリングには低速でコストがかかります。また、ほとんどのものは安全性の次元を個別に評価するため、レイテンシがさらに悪化します。7Bから27Bパラメータのこれらのモデルは、本番規模で実行するには高コストです。

GLiGuardのエンコーダアプローチ

GLiGuardはモデレーションをテキスト分類として再定義します。入力テキストとタスクラベルの両方を一緒にエンコードし、1回のパスですべてのラベルを同時にスコアリングします。安全性の次元（ラベル）を追加しても推論時間は増加しません。モデルは4つの同時タスクを処理します：

安全性分類 — ユーザープロンプトとモデル応答の両方について安全/不安全
ジェイルブレイク戦略検出 — 11カテゴリ（プロンプトインジェクション、ロールプレイバイパス、命令オーバーライド、ソーシャルエンジニアリングなど）
有害カテゴリ検出 — 14カテゴリ（暴力、性的コンテンツ、ヘイトスピーチ、個人情報、誤情報、児童の安全、著作権侵害など）
拒否検出 — 応諾または拒否、過剰拒否や誤った応諾の測定に使用

これら4つすべてが同時に評価され、デコーダモデルでは逐次パスまたは複数のモデル呼び出しが必要になるところです。

ベンチマークとパフォーマンス

9つの安全性ベンチマークにおいて、GLiGuardはサイズが23～90倍大きいモデルに匹敵または上回る性能を発揮し、最大16倍高速に動作します。投稿では具体的な精度数値は示されていませんが、パフォーマンスは主要な生成型ガードレールに匹敵すると主張されています。

対象ユーザー

大規模なリアルタイム安全性フィルタリングを低レイテンシかつ低コストで必要とする、LLMエージェントやチャットシステムを展開するチーム。

📖 出典全文: HN AI Agents

GLiGuard：开源300M参数安全审核模型声称比LLM护栏快16倍

デコーダベースのガードレールが遅い理由

GLiGuardのエンコーダアプローチ

ベンチマークとパフォーマンス

対象ユーザー

👀 See Also

クラウドラバンド：永続的なクロードコードセッションのためのターミナルラッパー

OpenClawユーザーは、AIエージェントによる計画とレビューのボトルネックを報告しています。

時間とともにあなたのプロジェクトを学習するClaudeコードのシステム

AIコーディングツールのローカルメモリシステムが会話ログから2,600以上の事実を抽出