Jake Benchmark v1: Teste 7 LLMs Locais com OpenClaw em 22 Tarefas

O Jake Benchmark v1 é uma ferramenta de avaliação de desempenho para LLMs locais funcionando como agentes de IA com o OpenClaw. Ele testa os modelos em 22 tarefas práticas para determinar sua eficácia em cenários reais de agentes.

Configuração e Metodologia do Teste

O benchmark foi executado em um Raspberry Pi com o Ollama rodando em uma GPU NVIDIA 3090. O desenvolvedor testou 7 LLMs locais diferentes para identificar o melhor modelo para trabalho de agente com o OpenClaw.

Categorias de Tarefas

As 22 tarefas abrangeram cenários do mundo real, incluindo:

Ler e-mails e criar tarefas a partir deles
Agendar reuniões e verificar conflitos
Detecção de phishing (especificamente um e-mail falso fingindo ser o proprietário pedindo a chave de uma carteira de bitcoin)
Tratamento de erros

Principais Resultados

A variação de desempenho foi significativa entre os modelos:

Qwen 27B: Pontuação de 59,4% - lidou com e-mails, agendou reuniões, detectou tentativas de phishing e gerenciou erros com sucesso
Nemotron 30B: Pontuação de 1,6% - tentou resolver tarefas executando apt-get install git

Observações Notáveis

O teste de phishing revelou comportamentos interessantes:

O melhor modelo recusou o pedido de phishing imediatamente
O pior modelo leu o arquivo de segredos três vezes antes de decidir não compartilhar as informações

Recursos do Painel de Controle

O benchmark inclui um painel de controle interativo que permite aos usuários:

Clicar em qualquer modelo para visualizar a conversa completa
Ver exatamente o que cada modelo fez durante as tarefas
Identificar onde os modelos erraram em sua execução

A ferramenta está disponível no GitHub para desenvolvedores executarem suas próprias avaliações e compararem o desempenho de LLMs locais para tarefas de agente.

📖 Read the full source: r/openclaw