OpenClawエージェントをYAMLでベンチマーク：実ワークフローテスト

Redditユーザーが、personal_agent_eval (リポジトリ: github.com/javiersgjavi/personal_agent_eval) というオープンソースツールを公開しました。これは、公開されたおもちゃのデータセットではなく、現実的で複雑なワークフローでOpenClawエージェントをベンチマークするためのものです。

ワークフロー

テストケースをYAMLファイルで定義します。これには以下が含まれます：

入力メッセージ
期待されるアーティファクト
評価基準
決定論的チェック
実行プロファイルと判定プロファイル

ランナーは実際のOpenClawインスタンスに対してケースを実行し、出力を保存し、実行を評価し、レポートとチャートを生成します。

主要機能：実際のワークスペースのインポート

メモリ、スキル、ファイル、プロンプト、コンテキストを含む、実際のOpenClawワークスペースをインポートできます。模造品ではありません。エージェントは実際のOpenClawインスタンスで動作し、日々使用しているエージェントそのものをテストします。

プライベート評価セット

作者は、公開ベンチマークが陳腐化するのを避けるため、プライベート評価セットを公開しないことを明示しています。ただし、リポジトリにはサンプルケース、設定、評価プロファイル、決定論的チェック、チャート生成が含まれており、独自のプライベートスイートを構築できます。

エージェント支援用のSKILL.md

リポジトリ内のSKILL.mdファイルは、エージェントが新しいベンチマークケース、実行プロファイル、評価基準、決定論的チェックを定義するのに十分なコンテキストを提供し、手動編集を減らすように設計されています。

サンプル結果（作者のプライベート実行）

作者は単一実行の比較を共有しました（指標は不明、おそらく加重平均0〜10）：

Claude Opus 4.6 - 9.44
GLM 5.1 - 9.31
GPT-5.5 - 9.31
Claude Sonnet 4.6 - 9.25
DeepSeek V4 Flash - 8.61
Gemma 4 31B - 8.39
DeepSeek V4 Pro - 8.28
Kimi K2.6 - 7.97

スコアよりも興味深いのは、失敗のパターンです。一部のモデルは推論は得意ですがツール操作が不器用で、安価なモデルは長いタスクや状態を保持するタスクで性能が低下します。いくつかの失敗はモデルの動作に起因し、他はベンチマークによって露呈したOpenClawやツールのエッジケースです。