Spec27レビュー: AIエージェント検証ツールのAPIテスト手法

Safe Intelligenceは、AIエージェント向けの仕様駆動型検証ツール「Spec27」を発表しました。従来のLLM評価フレームワークが一般的なモデル動作をスコアリングするのに対し、Spec27ではチームがエージェントの果たすべき特定ミッションに対して再利用可能な仕様を定義できます。テストはその仕様から自動生成され、エージェントの主要インターフェースのみに対して実行されます。内部スタックの仮定は不要で、SDKやゲートウェイも必要ありません。

主な機能

外部からのテスト: すべてのテストはエージェントの公開APIまたはUIに対して実行されます。エージェント内部を計測する必要がなく、スタックを制御できないベンダープラットフォーム上で構築されたエージェントにとって重要です。
仕様駆動のテスト生成: 期待される動作（例：「Xを尋ねられたら、Yを実行し、Zは実行しないこと」）の観点で仕様を定義します。Spec27は自動的に攻撃テストとロバストネスチェックを生成し、モデル、プロンプト、ツールが変更された際の感度や回帰を表面化します。
早期アクセス: 現時点では、シングルターンのエージェントおよびアプリケーション検証に最も強力です。マルチターン対話と、よりリッチなテレメトリ/ツール呼び出し統合はロードマップに含まれています。