Definable AIは、単一フラグでセルフホスト型のオブザーバビリティダッシュボードを追加します。

AIエージェントのための組み込みオブザーバビリティ
Definable AIは、FastAPI上に構築されたAIエージェント開発のためのオープンソースPythonフレームワークで、最小限のセットアップで利用できるセルフホスト型オブザーバビリティダッシュボードを追加しました。LangSmithやArizeのような外部サービスを必要とする他のフレームワークとは異なり、この機能は実行パイプラインに直接組み込まれています。
ワンフラグ設定
ダッシュボードを有効にするには、エージェント作成時に単一のパラメータを追加します:
from definable.agent import Agent
agent = Agent(
model="openai/gpt-4o",
tools=[get_weather, calculate],
observability=True, # <- この行
)
agent.serve(enable_server=True, port=8002)
ダッシュボードは http://localhost:8002/obs/ で利用可能
この設定には、APIキー、クラウドアカウント、メトリクススタック用のDocker-composeのような別途のインフラストラクチャは必要ありません。ダッシュボードは、独立したコンポーネントとしてエージェントと一緒に提供されます。
ダッシュボード機能
- ライブイベントストリーム:SSEを利用したリアルタイムストリーミングで、60以上のイベントタイプにわたるすべてのモデル呼び出し、ツール実行、知識取得、メモリ呼び出しを表示
- トークンとコスト管理:実行ごとおよび集計トラッキングで、予算がどこに使われているかを正確に把握
- レイテンシー百分位数:すべての実行にわたるp50、p95、p99メトリクスで、即座に回帰を発見
- ツールごとの分析:どのツールが最も頻繁に呼び出されるか、どのツールがエラーを起こすか、平均実行時間を表示
- 実行再生:任意の過去の実行をクリックして、ターンごとにステップ実行
- 実行比較:2つの実行を並べて比較し、変更されたプロンプトや異なるツール呼び出しを即座に確認
- タイムラインチャート:5分、30分、1時間、1日単位のバケットで、時間経過に伴うトークン消費、コスト、エラー率を表示
アーキテクチャアプローチ
このオブザーバビリティシステムは、LangSmithやPhoenixのような代替手段と以下の点で異なります:
- セルフホスト型:データはマシンから離れず、ベンダーロックインなし
- ゼロ設定:別途のインフラストラクチャやコレクタープロセスは不要
- パイプラインに組み込み:イベントは、モンキーパッチングやOTEL計装ではなく、8フェーズの実行パイプライン内部から発行
- プロトコルベース:3メソッドのクラスを記述して、SDKをインストールせずに任意のバックエンドにエクスポート可能
メンテナーは、RBACや保持ポリシーなどのエンタープライズ機能を備えた本格的なAPMシステムを置き換えることを意図していないと述べています。これは、開発中に何が起こっているかを確認したいエージェント開発者向けに設計されています。
このプロジェクトは現在初期段階にあり、メンテナーは追加の貢献者を求めています。フレームワークはhttps://github.com/definableai/definable.aiで利用可能です。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

AIコードレビューベンチマーク:Claude、Gemini、Codex、Qwen、MiniMaxの比較
ベンチマークテストでは、既知のバグを含む15件のMilvusプルリクエストに対して5つのAIモデルを評価しました。Claudeは生モードで53%のバグを検出し、モデル間の敵対的議論により検出率は80%に向上しました。

リーンコンテキスト: Claudeコードプラグインが冗長なドキュメントをエージェント最適化ファイルに変換
Lean Contextという無料のオープンソースClaude Codeプラグインは、プロジェクトのドキュメントをスキャンし、AIエージェントがgrepで発見できる内容を削除し、重要な非自明なコマンド、落とし穴、環境特有の癖だけを残します。.NETのeコマースプロジェクトでのテストでは、8つのドキュメント合計1,263行をわずか23行に削減しました。

Qwen 3.6 27B量子化ベンチマーク:実用的トレードオフでQ4_K_MがQ8_0を凌駕
BF16、Q4_K_M、Q8_0のGGUF量子化バリアントでQwen 3.6 27BをHumanEval、HellaSwag、BFCLで評価。Q4_K_MはBF16とほぼ同等のスコアを達成しつつ、RAM使用量48%削減、1.45倍の速度、68.8%のファイルサイズ削減を実現。

SpecLock: AIコーディング制約を強制するMCPサーバー
SpecLockは、セッション間でプロジェクトの制約を記憶し、AIコーディングエージェントがそれらを違反するのをブロックするオープンソースのMCPサーバーです。Claudeは独自の対抗テストスイートで100回のテストを実施し、100/100のスコア、誤検知ゼロ、チェックあたり15.7msという結果でした。