Executador de Benchmark de Código Aberto para Testar Agentes OpenClaw em Fluxos de Trabalho Reais

✍️ OpenClawRadar📅 Publicado: May 14, 2026🔗 Source
Executador de Benchmark de Código Aberto para Testar Agentes OpenClaw em Fluxos de Trabalho Reais
Ad

Um usuário do Reddit lançou uma ferramenta de código aberto chamada personal_agent_eval (repositório: github.com/javiersgjavi/personal_agent_eval) para avaliar agentes OpenClaw em fluxos de trabalho realistas e bagunçados — e não em conjuntos de dados públicos de brinquedo.

Fluxo de Trabalho

Defina casos de teste como arquivos YAML contendo:

  • Mensagens de entrada
  • Artefatos esperados
  • Critérios de avaliação
  • Verificações determinísticas
  • Perfis de execução e perfis de julgamento

O executor processa os casos contra uma instância real do OpenClaw, armazena as saídas, avalia as execuções e gera relatórios e gráficos.

Funcionalidade Principal: Importação de Workspace Real

Você pode importar seu workspace real do OpenClaw — incluindo memória, habilidades, arquivos, prompts e contexto — em vez de uma imitação simplificada. O agente é executado em uma instância real do OpenClaw, testando exatamente o agente que você usa diariamente.

Conjuntos de Avaliação Privados

O autor explicitamente não publica seus conjuntos de avaliação privados para evitar que benchmarks públicos se tornem obsoletos. No entanto, o repositório inclui casos de exemplo, configurações, perfis de avaliação, verificações determinísticas e geração de gráficos para que você possa construir seu próprio conjunto privado.

Ad

SKILL.md para Assistência ao Agente

Um arquivo SKILL.md no repositório foi projetado para dar a um agente contexto suficiente para ajudá-lo a definir novos casos de benchmark, perfis de execução, critérios de avaliação e verificações determinísticas — reduzindo a edição manual.

Resultados de Amostra (Execução Privada do Autor)

O autor compartilhou uma comparação de execução única (métrica incerta, provavelmente média ponderada 0-10):

Claude Opus 4.6 - 9.44
GLM 5.1 - 9.31
GPT-5.5 - 9.31
Claude Sonnet 4.6 - 9.25
DeepSeek V4 Flash - 8.61
Gemma 4 31B - 8.39
DeepSeek V4 Pro - 8.28
Kimi K2.6 - 7.97

Mais interessantes do que as pontuações: os modos de falha. Alguns modelos raciocinam bem, mas são desajeitados com ferramentas; modelos mais baratos degradam em tarefas longas ou com estado; algumas falhas são comportamentais do modelo, outras são casos extremos do OpenClaw/ferramentas expostos pelo benchmark.

Para Quem É

Usuários do OpenClaw que executam agentes para trabalhos reais e desejam comparar modelos em suas próprias tarefas privadas, em vez de argumentar com base em sensações ou leaderboards genéricos.

📖 Leia a fonte completa: r/openclaw

Ad

👀 See Also

O aplicativo Focusmo para macOS adiciona servidor MCP local para integração com Claude AI
Tools

O aplicativo Focusmo para macOS adiciona servidor MCP local para integração com Claude AI

Focusmo, um aplicativo de foco para macOS, agora inclui um servidor MCP local que permite ao Claude AI acessar dados reais de foco para revisões semanais e planejamento. O servidor é executado localmente no Mac sem a necessidade de servidores externos, mantendo todos os dados no dispositivo.

OpenClawRadar
Como a Mendral Reduziu Custos de LLM ao Atualizar para Opus: Padrão Triager, Acesso SQL e Arquitetura de Sub-Agente
Tools

Como a Mendral Reduziu Custos de LLM ao Atualizar para Opus: Padrão Triager, Acesso SQL e Arquitetura de Sub-Agente

A Mendral mudou do Sonnet para o Opus 4.6 na análise de falhas de CI, mas reduziu custos usando um triador Haiku para desviar 80% das falhas, dando aos agentes acesso SQL ao ClickHouse em vez de enviar logs, e gerando subagentes baratos para fazer a investigação real.

OpenClawRadar
Transformando o Código Claude em uma Equipe de Engenharia Autônoma
Tools

Transformando o Código Claude em uma Equipe de Engenharia Autônoma

A configuração ~/.claude/ transforma o Claude Code em um sistema de compilação autônomo, gerando e testando código de forma independente.

OpenClawRadar
A ferramenta de automação de fluxo de trabalho Symphony funciona com o Claude Code
Tools

A ferramenta de automação de fluxo de trabalho Symphony funciona com o Claude Code

Um desenvolvedor conseguiu fazer a especificação do Symphony funcionar com o Claude Code para automatizar fluxos de trabalho de ticket para PR, usando Node/TypeScript inicialmente, mas observando que Elixir pode ser melhor. A ferramenta requer configuração separada de chave de API e faturamento além das assinaturas do Claude.

OpenClawRadar