Resultados do PinchBench: Primeiro Benchmark Específico para Agentes de IA de Codificação OpenClaw

✍️ OpenClawRadar📅 Publicado: March 8, 2026🔗 Source

PinchBench é o primeiro benchmark projetado especificamente para avaliar agentes de codificação de IA no ecossistema OpenClaw, classificando modelos por taxa de sucesso, custo e velocidade.

Principais Resultados

O benchmark testou 32 modelos. Os melhores desempenhos por taxa de sucesso:

1. google/gemini-3-flash-preview: 95,1% de sucesso, US$ 0,72 de custo, 254,50s de velocidade
2. minimax/minimax-m2.1: 93,6% de sucesso, US$ 0,14 de custo, 239,79s de velocidade
3. moonshotai/kimi-k2.5: 93,4% de sucesso, US$ 0,20 de custo, 291,67s de velocidade
4. anthropic/claude-sonnet-4.5: 92,7% de sucesso, US$ 3,07 de custo, 304,53s de velocidade
5. google/gemini-3-pro-preview: 91,7% de sucesso, US$ 1,48 de custo, 239,55s de velocidade

Descobertas Notáveis

Modelos Flash superam modelos Pro com custo menor: Gemini-3-Flash-Preview (95,1%, US$ 0,72) supera Gemini-3-Pro-Preview (91,7%, US$ 1,48)
Modelos mais caros não necessariamente têm melhor desempenho
Minimax 2.5 ficou em 31º lugar com taxa de sucesso de 35,5%, velocidade de 105,96s (custo não listado)
Vários modelos mostram altas taxas de sucesso acima de 90% mantendo custos abaixo de US$ 1

Faixa de Desempenho

As taxas de sucesso variam de 95,1% (topo) a 35,2% (fundo). Opções custo-efetivas incluem:

openai/gpt-5-nano: 85,8% de sucesso por US$ 0,03
google/gemini-2.5-flash-lite: 83,2% de sucesso por US$ 0,05
mistralai/devstral-2512: 81,7% de sucesso por US$ 0,10

Vários modelos no final da classificação (posições 23-32) mostram taxas de sucesso em torno de 40% ou menos, com custos não listados nos dados fornecidos.

📖 Leia a fonte completa: r/openclaw

👀 See Also

Tools

TideSurf: Ferramenta de compressão DOM reduz uso de tokens de agentes web em 30 vezes, acelera TTFT em 12 vezes

O TideSurf v0.3 converte o DOM renderizado para um formato compactado semelhante a markdown, reduzindo o consumo de tokens em 32x em páginas do GitHub em comparação com o DOM bruto, enquanto adiciona 18 ferramentas interativas para agentes de LLM.

Apr 20, 2026, 01:45 AM UTC

OpenClawRadar

Tools

Pesquisa-web-offline: Uma Alternativa Local ao Google Search para Agentes de IA

Um desenvolvedor criou o offline-web-search para resolver as capacidades de busca offline deficientes em agentes de IA, criando uma substituição direta que imita as ferramentas web do Claude com classificação BM25, indexação SQLite FTS5 e suporte para arquivos ZIM e rastreadores personalizados.

Mar 10, 2026, 05:45 PM UTC

OpenClawRadar

Tools

Akemon: Publique e Contrate Agentes de IA de Codificação Diretamente do Seu Laptop

Akemon é uma ferramenta que permite aos desenvolvedores publicar seus agentes de programação de IA com um comando e contratar os agentes de outros com outro comando, funcionando diretamente de laptops através de um túnel de retransmissão sem necessidade de servidores. É agnóstico a protocolos, suportando agentes do Claude Code, Codex, Gemini, OpenCode, Cursor e Windsurf.

Mar 23, 2026, 03:45 AM UTC

OpenClawRadar

Tools

Plugin OpenClaw CoreBrain: Memória Persistente para Agentes de IA de Codificação

Um novo plugin chamado CoreBrain resolve os problemas de memória do OpenClaw armazenando informações fora da janela de contexto em um grafo de conhecimento e injetando-as automaticamente antes de cada consulta, eliminando a necessidade de chamadas de ferramentas e invocação opcional de memória.

Apr 17, 2026, 03:45 PM UTC

OpenClawRadar