オープンソースのベンチマークランナー:OpenClawエージェントを実際のワークフローでテスト

Redditユーザーが、personal_agent_eval (リポジトリ: github.com/javiersgjavi/personal_agent_eval) というオープンソースツールを公開しました。これは、公開されたおもちゃのデータセットではなく、現実的で複雑なワークフローでOpenClawエージェントをベンチマークするためのものです。
ワークフロー
テストケースをYAMLファイルで定義します。これには以下が含まれます:
- 入力メッセージ
- 期待されるアーティファクト
- 評価基準
- 決定論的チェック
- 実行プロファイルと判定プロファイル
ランナーは実際のOpenClawインスタンスに対してケースを実行し、出力を保存し、実行を評価し、レポートとチャートを生成します。
主要機能:実際のワークスペースのインポート
メモリ、スキル、ファイル、プロンプト、コンテキストを含む、実際のOpenClawワークスペースをインポートできます。模造品ではありません。エージェントは実際のOpenClawインスタンスで動作し、日々使用しているエージェントそのものをテストします。
プライベート評価セット
作者は、公開ベンチマークが陳腐化するのを避けるため、プライベート評価セットを公開しないことを明示しています。ただし、リポジトリにはサンプルケース、設定、評価プロファイル、決定論的チェック、チャート生成が含まれており、独自のプライベートスイートを構築できます。
エージェント支援用のSKILL.md
リポジトリ内のSKILL.mdファイルは、エージェントが新しいベンチマークケース、実行プロファイル、評価基準、決定論的チェックを定義するのに十分なコンテキストを提供し、手動編集を減らすように設計されています。
サンプル結果(作者のプライベート実行)
作者は単一実行の比較を共有しました(指標は不明、おそらく加重平均0〜10):
Claude Opus 4.6 - 9.44 GLM 5.1 - 9.31 GPT-5.5 - 9.31 Claude Sonnet 4.6 - 9.25 DeepSeek V4 Flash - 8.61 Gemma 4 31B - 8.39 DeepSeek V4 Pro - 8.28 Kimi K2.6 - 7.97
スコアよりも興味深いのは、失敗のパターンです。一部のモデルは推論は得意ですがツール操作が不器用で、安価なモデルは長いタスクや状態を保持するタスクで性能が低下します。いくつかの失敗はモデルの動作に起因し、他はベンチマークによって露呈したOpenClawやツールのエッジケースです。
対象ユーザー
実際の作業でエージェントを使用し、漠然とした印象や一般的なリーダーボードではなく、自身のプライベートタスクでモデルを比較したいOpenClawユーザー向けです。
📖 全文ソース: r/openclaw
👀 See Also

Claudeワークフローライブラリ、Reddit発のワークフローを自動追跡・評価開始
主要なサブレディットからのClaudeおよびClaude Codeワークフローを検索可能で自動更新されるインデックス。手順、アーティファクト、コミュニティ評価付き。

パンゴリン:ZTNAの代替としてのオープンソースのアイデンティティベースVPN
Pangolinは、アイデンティティベースのリモートアクセスに特化したオープンソースVPNであり、Cloudflare ZTNA、Zscaler、Twingateに代わる選択肢を提供します。

LAP: Claudeの幻覚を減らすため、LLM用に1,500以上のAPI仕様をコンパイル
LAPは、1,500以上の実際のAPI仕様をLLM向けに最適化された簡潔な形式にコンパイルするツールです。検証済みのエンドポイントとパラメータを提供し、ClaudeのようなAIコーディングエージェントが誤ったAPI呼び出しを生成する(ハルシネーション)のを防ぎます。

オーケストラ:OpenClaw向けコスト認識型LLMルーティングレイヤーにより、APIコストを60〜80%削減
Orkestraは、OpenClawにおけるLLM呼び出しの前に位置するモジュラー型ルーティングレイヤーで、意味的分類を使用してプロンプトを予算、バランス、プレミアムの各モデル階層に振り分けます。このアプローチにより、プロンプトの書き換えや複雑なルールなしにAPIコストを60〜80%削減しました。