d3ラボによる実世界APIを用いたAIエージェントのテスト

d3 labsは、実際の環境下でAIコーディングエージェントをテストするために特別に設計された10個の無料プロダクションAPIを提供します。理想化されたモックから脱却することで、これらのAPIはエージェントが本物のサービスの微妙な違いを扱えることを保証します。開発中に得られた教訓は、JSON解析エラー、レイテンシ問題、レート制限、応答形式のばらつきなど、プロダクション環境でAIエージェントを静かに破壊する可能性のある主要な課題点を浮き彫りにしています。
主要な詳細
- モック vs 現実世界: モックはしばしばクリーンなJSONを返し、即座に応答するため、エージェントがプロダクションで直面するエラーを隠してしまいます。実際のAPIは、不正なJSON、空の配列、ハッピーパスを超えたエラーオブジェクトを返す可能性があります。
- レイテンシ管理: モック(<1ms)とは異なり、実際のAPIは50-800msの範囲で応答し、適切に処理されない場合、エージェントのオーケストレーションに大きな影響を与えます。d3 labsのAPIには、開発者がエージェントのパフォーマンスをプロファイリングするのに役立つタイミングデータが含まれています。
- レート制限の扱い: エージェントはレート制限(HTTP 429)を適切に処理し、再試行するか、ユーザーに通知するか、キャッシュデータを使用するかを決定する必要があります。d3 labsはこれをテストするためにレート制限(匿名10回/日、認証済み100回/日)を実施しています。
- 応答形式の扱い: APIは様々な形式でデータを返すため、柔軟な応答解析が必要です。特定の構造にハードコードされたエージェントは、サービス応答が期待から外れた場合に失敗する可能性があります。
- ユーティリティ呼び出しに焦点: 多くの場合、見過ごされがちなユーティリティAPI(例:天気、スキーマ検証)は、通常より複雑な機能(LLM呼び出しなど)に焦点が当てられているにもかかわらず、エージェントが誤った状態を蓄積する弱点となる可能性があります。
APIリスト
- ビットコイン価格オラクル:
/btc-price- 法定通貨でのライブビットコイン価格 - AIウェブ検索:
/search- DuckDuckGo搭載検索 - 天気API:
/weather- 世界中の現在の天気 - 雰囲気オラクル:
/vibe-check- 感情分析 - クソ投稿ジェネレーター:
/shitpost- トピックベースのコンテンツ生成 - APIエラートランスレーター:
/error-translator- HTTPエラーコードの説明 - レート制限計算機:
/rate-limit-calc- 最適なレート制限の提案 - スキーマバリデータ:
/validate-schema- JSONスキーマ検証 - コンテキスト圧縮機:
/compress-context- コンテキスト管理のためのテキスト圧縮 - 幻覚検出器:
/check-hallucination- AI生成テキストの幻覚をフラグ付け
これらのサービスへのアクセスは簡単です:JSONペイロードを含むhttps://labs.digital3.ai/api/services{endpoint}へのPOSTリクエストです。このセットアップは、AIエージェントの堅牢性を検証するための現実的な環境を約束します。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

LLMSpend: AnthropicおよびOpenAI SDK向けのオープンソースコストトラッカー
LLMSpendは、AnthropicとOpenAIのSDK呼び出しに2行のコードでコスト追跡機能を追加するPythonライブラリです。外部にデータを送信することなく、ローカルのSQLiteストレージ、CLIレポート、ウェブダッシュボードを提供します。

ローカルXMindマインドマップファイル用MCPサーバーがリリースされました
ある開発者が、ローカルのXMindマインドマップファイルを読み書きするための22個のツールを提供するMCPサーバーを公開しました。このサーバーは、Claude DesktopやCursorなどのMCP互換AIクライアントで動作します。

MCPサーバーにより、AIエージェントが一時的な仮想カードで実際の購入を行えるようになります。
開発者が、AIエージェントがジャストインタイムで発行される一時的なバーチャルVisaカードを使用して実際の購入を完了できるMCPサーバーを構築しました。このシステムはMFAによるユーザー承認を必要とし、特定の加盟店にロックされ、15分のTTL(有効期限)を持つカードを発行します。

QCAIアプリは、OpenClawエコシステムのためのモバイルコントロールセンターを提供します。
学術研究チームが、AI支援開発で構築されたQCAIアプリをiOSとAndroid向けにリリース。ダッシュボード監視、ゲートウェイチャット、OpenClawツールへの安全なVPNアクセスを提供。