OpenClaw 에이전트 벤치마크: 실제 워크플로우 테스트 방법

Reddit 사용자가 personal_agent_eval(저장소: github.com/javiersgjavi/personal_agent_eval)이라는 오픈소스 도구를 공개했습니다. 이 도구는 공개된 장난감 데이터셋이 아닌, 실제 복잡한 워크플로에서 OpenClaw 에이전트를 벤치마킹하기 위한 것입니다.

워크플로

테스트 케이스를 YAML 파일로 정의하며, 여기에는 다음이 포함됩니다:

입력 메시지
예상 결과물
평가 기준
결정론적 검사
실행 프로필 및 평가 프로필

러너는 실제 OpenClaw 인스턴스에서 케이스를 실행하고, 출력을 저장하며, 실행을 평가하고, 보고서와 차트를 생성합니다.

핵심 기능: 실제 워크스페이스 가져오기

메모리, 스킬, 파일, 프롬프트, 컨텍스트를 포함한 실제 OpenClaw 워크스페이스를 가져올 수 있습니다. 단순화된 모방본이 아닌 실제 환경에서 에이전트가 실행되므로, 일상적으로 사용하는 에이전트 그대로를 테스트할 수 있습니다.

비공개 평가 세트

저자는 공개 벤치마크가 낡아지는 것을 방지하기 위해 자신의 비공개 평가 세트를 공개하지 않습니다. 그러나 저장소에는 예제 케이스, 설정, 평가 프로필, 결정론적 검사, 차트 생성 예제가 포함되어 있어, 자신만의 비공개 스위트를 구축할 수 있습니다.

에이전트 지원을 위한 SKILL.md

저장소의 SKILL.md 파일은 에이전트가 새로운 벤치마크 케이스, 실행 프로필, 평가 기준, 결정론적 검사를 정의하는 데 충분한 컨텍스트를 제공하도록 설계되어, 수동 편집을 줄여줍니다.

샘플 결과 (저자의 비공개 실행)

저자는 단일 실행 비교 결과를 공유했습니다(지표는 불명확하나, 가중 평균 0-10점으로 추정):

Claude Opus 4.6 - 9.44
GLM 5.1 - 9.31
GPT-5.5 - 9.31
Claude Sonnet 4.6 - 9.25
DeepSeek V4 Flash - 8.61
Gemma 4 31B - 8.39
DeepSeek V4 Pro - 8.28
Kimi K2.6 - 7.97

점수보다 더 흥미로운 것은 실패 패턴입니다. 일부 모델은 추론은 잘하지만 도구 사용에 서툽니다. 저렴한 모델은 길거나 상태 저장 작업에서 성능이 저하됩니다. 일부 실패는 모델의 행동 때문이고, 다른 실패는 벤치마크로 인해 드러난 OpenClaw/도구의 극단적인 사례입니다.