Benchmark OpenClaw: Teste Agentes com Fluxos Reais

Um usuário do Reddit lançou uma ferramenta de código aberto chamada personal_agent_eval (repositório: github.com/javiersgjavi/personal_agent_eval) para avaliar agentes OpenClaw em fluxos de trabalho realistas e bagunçados — e não em conjuntos de dados públicos de brinquedo.

Fluxo de Trabalho

Defina casos de teste como arquivos YAML contendo:

Mensagens de entrada
Artefatos esperados
Critérios de avaliação
Verificações determinísticas
Perfis de execução e perfis de julgamento

O executor processa os casos contra uma instância real do OpenClaw, armazena as saídas, avalia as execuções e gera relatórios e gráficos.

Funcionalidade Principal: Importação de Workspace Real

Você pode importar seu workspace real do OpenClaw — incluindo memória, habilidades, arquivos, prompts e contexto — em vez de uma imitação simplificada. O agente é executado em uma instância real do OpenClaw, testando exatamente o agente que você usa diariamente.

Conjuntos de Avaliação Privados

O autor explicitamente não publica seus conjuntos de avaliação privados para evitar que benchmarks públicos se tornem obsoletos. No entanto, o repositório inclui casos de exemplo, configurações, perfis de avaliação, verificações determinísticas e geração de gráficos para que você possa construir seu próprio conjunto privado.

SKILL.md para Assistência ao Agente

Um arquivo SKILL.md no repositório foi projetado para dar a um agente contexto suficiente para ajudá-lo a definir novos casos de benchmark, perfis de execução, critérios de avaliação e verificações determinísticas — reduzindo a edição manual.

Resultados de Amostra (Execução Privada do Autor)

O autor compartilhou uma comparação de execução única (métrica incerta, provavelmente média ponderada 0-10):

Claude Opus 4.6 - 9.44
GLM 5.1 - 9.31
GPT-5.5 - 9.31
Claude Sonnet 4.6 - 9.25
DeepSeek V4 Flash - 8.61
Gemma 4 31B - 8.39
DeepSeek V4 Pro - 8.28
Kimi K2.6 - 7.97

Mais interessantes do que as pontuações: os modos de falha. Alguns modelos raciocinam bem, mas são desajeitados com ferramentas; modelos mais baratos degradam em tarefas longas ou com estado; algumas falhas são comportamentais do modelo, outras são casos extremos do OpenClaw/ferramentas expostos pelo benchmark.

Para Quem É

Usuários do OpenClaw que executam agentes para trabalhos reais e desejam comparar modelos em suas próprias tarefas privadas, em vez de argumentar com base em sensações ou leaderboards genéricos.

📖 Leia a fonte completa: r/openclaw

Executador de Benchmark de Código Aberto para Testar Agentes OpenClaw em Fluxos de Trabalho Reais

Fluxo de Trabalho

Funcionalidade Principal: Importação de Workspace Real

Conjuntos de Avaliação Privados

SKILL.md para Assistência ao Agente

Resultados de Amostra (Execução Privada do Autor)

Para Quem É

👀 See Also

Signet: Camada de Memória de Código Aberto para Agentes de IA de Programação Atinge 80% de F1 no LoCoMo

NerfGuard: Um Classificador que Roteia Solicitações de Codificação para Modelos Mais Baratos, Reduzindo Custos em 3x

Duas Habilidades de Código do Claude para Gerenciar a Configuração CLAUDE.md

Extensão de Navegador WeAreHere e Ferramentas MCP Analisam Práticas de Privacidade de Sites