Jake Benchmark v1: Teste de Desempenho de LLM Local para Agentes de IA OpenClaw

O Jake Benchmark v1 é uma ferramenta de avaliação de desempenho para LLMs locais funcionando como agentes de IA com o OpenClaw. Ele testa os modelos em 22 tarefas práticas para determinar sua eficácia em cenários reais de agentes.
Configuração e Metodologia do Teste
O benchmark foi executado em um Raspberry Pi com o Ollama rodando em uma GPU NVIDIA 3090. O desenvolvedor testou 7 LLMs locais diferentes para identificar o melhor modelo para trabalho de agente com o OpenClaw.
Categorias de Tarefas
As 22 tarefas abrangeram cenários do mundo real, incluindo:
- Ler e-mails e criar tarefas a partir deles
- Agendar reuniões e verificar conflitos
- Detecção de phishing (especificamente um e-mail falso fingindo ser o proprietário pedindo a chave de uma carteira de bitcoin)
- Tratamento de erros
Principais Resultados
A variação de desempenho foi significativa entre os modelos:
- Qwen 27B: Pontuação de 59,4% - lidou com e-mails, agendou reuniões, detectou tentativas de phishing e gerenciou erros com sucesso
- Nemotron 30B: Pontuação de 1,6% - tentou resolver tarefas executando
apt-get install git
Observações Notáveis
O teste de phishing revelou comportamentos interessantes:
- O melhor modelo recusou o pedido de phishing imediatamente
- O pior modelo leu o arquivo de segredos três vezes antes de decidir não compartilhar as informações
Recursos do Painel de Controle
O benchmark inclui um painel de controle interativo que permite aos usuários:
- Clicar em qualquer modelo para visualizar a conversa completa
- Ver exatamente o que cada modelo fez durante as tarefas
- Identificar onde os modelos erraram em sua execução
A ferramenta está disponível no GitHub para desenvolvedores executarem suas próprias avaliações e compararem o desempenho de LLMs locais para tarefas de agente.
📖 Read the full source: r/openclaw
👀 See Also

SpecLock: Motor de Restrições de Código Aberto para Agentes de IA de Programação
SpecLock é um servidor MCP que aplica ativamente restrições em agentes de codificação de IA, como o Claude Code. Ele bloqueia violações com avisos de conflito semântico usando expansão de sinônimos, detecção de negação e sinalização de ações destrutivas.

AutoProber: Automação de sondas voadoras orientada por IA para hacking de hardware
AutoProber é uma pilha de automação de sondas voadoras para hackers de hardware que permite que agentes de IA descubram alvos, mapeiem imagens de microscópio, realizem movimentos CNC monitorados por segurança, revisem sondas e conduzam sondagens controladas de pinos. Inclui código de controle em Python, um painel web, arquivos CAD e opera com controladores CNC GRBL, microscópios USB e monitoramento de segurança por osciloscópio.

Homebutler: Habilidade OpenClaw para Gerenciamento de Homelab via Telegram
Homebutler é um binário único em Go (~13MB, sem dependências) que funciona como uma habilidade do OpenClaw para gerenciar homelabs a partir do chat do Telegram. Ele monitora servidores, reinicia contêineres Docker, liga máquinas, escaneia redes e alerta sobre picos de recursos sem sessões SSH ou logins em painéis.

Benchmark Mostra que Ferramenta CLI Reduz Custos de Tokens de Código do Claude em 32% por Meio de Navegação Estrutural
Um desenvolvedor criou uma ferramenta CLI em Rust que dá aos agentes Claude Code comandos de navegação estrutural como 'mostre-me um resumo de 180 tokens desta classe de 6.000 tokens'. Benchmarking no Sonnet 4.6 em 54 execuções automatizadas mostrou 32% de custo menor por tarefa e 67% mais edições de código por sessão.