오픈소스 벤치마크 러너: 실제 워크플로우에서 OpenClaw 에이전트 테스트

✍️ OpenClawRadar📅 게시일: May 14, 2026🔗 Source
오픈소스 벤치마크 러너: 실제 워크플로우에서 OpenClaw 에이전트 테스트
Ad

Reddit 사용자가 personal_agent_eval(저장소: github.com/javiersgjavi/personal_agent_eval)이라는 오픈소스 도구를 공개했습니다. 이 도구는 공개된 장난감 데이터셋이 아닌, 실제 복잡한 워크플로에서 OpenClaw 에이전트를 벤치마킹하기 위한 것입니다.

워크플로

테스트 케이스를 YAML 파일로 정의하며, 여기에는 다음이 포함됩니다:

  • 입력 메시지
  • 예상 결과물
  • 평가 기준
  • 결정론적 검사
  • 실행 프로필 및 평가 프로필

러너는 실제 OpenClaw 인스턴스에서 케이스를 실행하고, 출력을 저장하며, 실행을 평가하고, 보고서와 차트를 생성합니다.

핵심 기능: 실제 워크스페이스 가져오기

메모리, 스킬, 파일, 프롬프트, 컨텍스트를 포함한 실제 OpenClaw 워크스페이스를 가져올 수 있습니다. 단순화된 모방본이 아닌 실제 환경에서 에이전트가 실행되므로, 일상적으로 사용하는 에이전트 그대로를 테스트할 수 있습니다.

비공개 평가 세트

저자는 공개 벤치마크가 낡아지는 것을 방지하기 위해 자신의 비공개 평가 세트를 공개하지 않습니다. 그러나 저장소에는 예제 케이스, 설정, 평가 프로필, 결정론적 검사, 차트 생성 예제가 포함되어 있어, 자신만의 비공개 스위트를 구축할 수 있습니다.

Ad

에이전트 지원을 위한 SKILL.md

저장소의 SKILL.md 파일은 에이전트가 새로운 벤치마크 케이스, 실행 프로필, 평가 기준, 결정론적 검사를 정의하는 데 충분한 컨텍스트를 제공하도록 설계되어, 수동 편집을 줄여줍니다.

샘플 결과 (저자의 비공개 실행)

저자는 단일 실행 비교 결과를 공유했습니다(지표는 불명확하나, 가중 평균 0-10점으로 추정):

Claude Opus 4.6 - 9.44
GLM 5.1 - 9.31
GPT-5.5 - 9.31
Claude Sonnet 4.6 - 9.25
DeepSeek V4 Flash - 8.61
Gemma 4 31B - 8.39
DeepSeek V4 Pro - 8.28
Kimi K2.6 - 7.97

점수보다 더 흥미로운 것은 실패 패턴입니다. 일부 모델은 추론은 잘하지만 도구 사용에 서툽니다. 저렴한 모델은 길거나 상태 저장 작업에서 성능이 저하됩니다. 일부 실패는 모델의 행동 때문이고, 다른 실패는 벤치마크로 인해 드러난 OpenClaw/도구의 극단적인 사례입니다.

대상 사용자

실제 작업을 위해 에이전트를 사용하는 OpenClaw 사용자로서, 직감이나 일반 리더보드가 아닌 자신의 개인 작업을 기준으로 모델을 비교하려는 분들입니다.

📖 전체 원문 읽기: r/openclaw

Ad

👀 See Also

SMELT 컴파일러는 OpenClaw 작업 공간 토큰 사용량을 최대 95%까지 절감합니다.
Tools

SMELT 컴파일러는 OpenClaw 작업 공간 토큰 사용량을 최대 95%까지 절감합니다.

SMELT는 OpenClaw 작업공간 마크다운 파일을 더 밀도 높은 런타임 형태로 컴파일하여 AI 모델에 관련 콘텐츠만 전송합니다. 벤치마크 결과, 쿼리당 토큰 사용량이 76.1%에서 95.5%까지 감소했으며, USER.md 및 SOUR.md와 같은 정적 파일을 매 메시지마다 재처리하는 것을 방지합니다.

OpenClawRadar
Memtrace: 클로드 코드 에이전트를 위한 지속적이고 시간 인식적인 코드베이스 메모리
Tools

Memtrace: 클로드 코드 에이전트를 위한 지속적이고 시간 인식적인 코드베이스 메모리

Memtrace는 Tree-sitter AST 파싱과 하이브리드 검색(BM25 + Jina-code 임베딩)을 사용하여 Claude Code 에이전트에게 항상 최신 상태의 스냅샷과 이중 시간 재생을 제공하며, 인덱싱 중 LLM 추론 비용이 0입니다.

OpenClawRadar
유닉스 명령어를 사용하는 단일 run() 도구가 AI 에이전트에 함수 호출보다 우수한 이유
Tools

유닉스 명령어를 사용하는 단일 run() 도구가 AI 에이전트에 함수 호출보다 우수한 이유

에이전트 구축 경력 2년의 백엔드 리드가 단일 run(command="...") 도구와 유닉스 스타일 CLI 명령어가 전통적인 함수 호출 카탈로그보다 성능이 우수하다고 주장합니다. 이 접근법은 LLM의 학습 데이터에서 얻은 셸 명령어에 대한 기존 친숙도를 활용합니다.

OpenClawRadar
MCP 마켓플레이스, 보안 검증된 1,900개 이상의 MCP 도구 플러그인 디렉토리 출시
Tools

MCP 마켓플레이스, 보안 검증된 1,900개 이상의 MCP 도구 플러그인 디렉토리 출시

MCP 마켓플레이스(mcp-marketplace.io)는 1,900개 이상의 MCP 서버에 대한 보안 중심 디렉토리를 제공하며, 다중 계층 보안 분석, 위험 점수 평가, Claude Desktop, Cursor, ChatGPT, VS Code를 위한 원클릭 설치 기능을 갖추고 있습니다.

OpenClawRadar