Spec27: Spec駆動型AIエージェント検証 – 内部アクセス不要のAPIレベルテスト

Safe Intelligenceは、AIエージェント向けの仕様駆動型検証ツール「Spec27」を発表しました。従来のLLM評価フレームワークが一般的なモデル動作をスコアリングするのに対し、Spec27ではチームがエージェントの果たすべき特定ミッションに対して再利用可能な仕様を定義できます。テストはその仕様から自動生成され、エージェントの主要インターフェースのみに対して実行されます。内部スタックの仮定は不要で、SDKやゲートウェイも必要ありません。
主な機能
- 外部からのテスト: すべてのテストはエージェントの公開APIまたはUIに対して実行されます。エージェント内部を計測する必要がなく、スタックを制御できないベンダープラットフォーム上で構築されたエージェントにとって重要です。
- 仕様駆動のテスト生成: 期待される動作(例:「Xを尋ねられたら、Yを実行し、Zは実行しないこと」)の観点で仕様を定義します。Spec27は自動的に攻撃テストとロバストネスチェックを生成し、モデル、プロンプト、ツールが変更された際の感度や回帰を表面化します。
- 早期アクセス: 現時点では、シングルターンのエージェントおよびアプリケーション検証に最も強力です。マルチターン対話と、よりリッチなテレメトリ/ツール呼び出し統合はロードマップに含まれています。
対象ユーザー
内部エージェント、ベンダーエージェント、またはベンチマークスコアよりも信頼性が重要なAIシステムを導入しているチーム。内部を公開していないプラットフォーム上のエージェントをテストする場合、Spec27のブラックボックスアプローチはそのギャップに直接対応します。
始め方
Spec27はHN読者が試せるよう公開されています。ローンチサイトでは、設定不要で試せるサンプルフローを提供しています。spec27.ai/launchからサインアップしてください。
📖 出典: HN AI Agents
👀 See Also

Claude Hindsight: Claudeコードセッション用可観測性ツール
Claude Hindsightは、Claude Code用のオープンソースの可観測性レイヤーで、ツール呼び出し、トークン、エラーを探索可能なダッシュボードに記録します。作成者はこれを利用して、733回のツール呼び出しと692.8Mのキャッシュトークンを伴う11時間の単一セッションでオープンソースプロジェクトをリファクタリングしました。

Rowboat: 知識グラフメモリを備えたオープンソースAI同僚
Rowboatは、あなたの仕事を生きたナレッジグラフに変換するオープンソースアプリで、データをMarkdownとしてローカルに保存し、AI駆動のローカルアシスタンスを提供します。

VAST.AI GPUレンタルでOpenClawを設定して、無制限のOllamaプロンプトを実現
ユーザーはVAST.AIのGPUレンタルをOllamaとOpenClawと組み合わせてプロンプト制限を回避しようとしたが、手動でのJSON編集が必要な設定上の課題に直面したと説明している。

Claude Codeで完全に運用されるSlackにおけるAIチームメイトのフレームワーク
ginnie-agentsは、Slack ID、3層メモリ、cronルーチン、勤務時間を持ち、すべてClaude Codeを通じて設定・操作可能な自律型AIエージェントを実行するためのオープンソースフレームワークです。Claude Code Max、Docker、Node 22+、およびアプリ作成権限のあるSlackワークスペースが必要です。