Resultados do PinchBench: Primeiro Benchmark Específico para Agentes de IA de Codificação OpenClaw

✍️ OpenClawRadar📅 Publicado: March 8, 2026🔗 Source
Resultados do PinchBench: Primeiro Benchmark Específico para Agentes de IA de Codificação OpenClaw
Ad

PinchBench é o primeiro benchmark projetado especificamente para avaliar agentes de codificação de IA no ecossistema OpenClaw, classificando modelos por taxa de sucesso, custo e velocidade.

Principais Resultados

O benchmark testou 32 modelos. Os melhores desempenhos por taxa de sucesso:

  • 1. google/gemini-3-flash-preview: 95,1% de sucesso, US$ 0,72 de custo, 254,50s de velocidade
  • 2. minimax/minimax-m2.1: 93,6% de sucesso, US$ 0,14 de custo, 239,79s de velocidade
  • 3. moonshotai/kimi-k2.5: 93,4% de sucesso, US$ 0,20 de custo, 291,67s de velocidade
  • 4. anthropic/claude-sonnet-4.5: 92,7% de sucesso, US$ 3,07 de custo, 304,53s de velocidade
  • 5. google/gemini-3-pro-preview: 91,7% de sucesso, US$ 1,48 de custo, 239,55s de velocidade
Ad

Descobertas Notáveis

  • Modelos Flash superam modelos Pro com custo menor: Gemini-3-Flash-Preview (95,1%, US$ 0,72) supera Gemini-3-Pro-Preview (91,7%, US$ 1,48)
  • Modelos mais caros não necessariamente têm melhor desempenho
  • Minimax 2.5 ficou em 31º lugar com taxa de sucesso de 35,5%, velocidade de 105,96s (custo não listado)
  • Vários modelos mostram altas taxas de sucesso acima de 90% mantendo custos abaixo de US$ 1

Faixa de Desempenho

As taxas de sucesso variam de 95,1% (topo) a 35,2% (fundo). Opções custo-efetivas incluem:

  • openai/gpt-5-nano: 85,8% de sucesso por US$ 0,03
  • google/gemini-2.5-flash-lite: 83,2% de sucesso por US$ 0,05
  • mistralai/devstral-2512: 81,7% de sucesso por US$ 0,10

Vários modelos no final da classificação (posições 23-32) mostram taxas de sucesso em torno de 40% ou menos, com custos não listados nos dados fornecidos.

📖 Leia a fonte completa: r/openclaw

Ad

👀 See Also

Pesquisa semântica local para conversas de IA com fastembed e LanceDB
Tools

Pesquisa semântica local para conversas de IA com fastembed e LanceDB

Um desenvolvedor indexou 368 mil mensagens de conversas de IA localmente usando fastembed para embeddings baseados em CPU e LanceDB como armazenamento vetorial serverless, alcançando latência de busca p50 de 12ms sem chaves de API.

OpenClawRadar
PocketBot Beta: Agente de IA para iOS com Privacidade em Primeiro Lugar e Motor Híbrido Local/Nuvem
Tools

PocketBot Beta: Agente de IA para iOS com Privacidade em Primeiro Lugar e Motor Híbrido Local/Nuvem

PocketBot é um agente de IA para iOS que opera em segundo plano, integra-se aos App Intents e utiliza um motor híbrido: execução local para gatilhos do sistema e sanitização de PII, com processamento em nuvem para tarefas complexas como resumo de e-mails ou reserva de voos.

OpenClawRadar
ClawCut Proxy Lançado no GitHub para Otimizar OpenClaw para Pequenos LLMs
Tools

ClawCut Proxy Lançado no GitHub para Otimizar OpenClaw para Pequenos LLMs

ClawCut é um proxy experimental que manipula, injeta chamadas JSON e extrai ruído JSON do OpenClaw para reduzir a sobrecarga cognitiva em modelos pequenos (7B-8B) executados em hardware limitado.

OpenClawRadar
Ctxpact: Proxy de Compactação de Contexto para LLMs Locais
Tools

Ctxpact: Proxy de Compactação de Contexto para LLMs Locais

Ctxpact é um proxy compatível com OpenAI que comprime entradas excessivamente grandes para LLMs locais com janelas de contexto de 16k, usando um pipeline de 3 etapas que inclui estratégias de DCP, sumarização e extração. Benchmarks mostram 110k tokens comprimidos para 12k com 8/8 de precisão em compreensão de leitura.

OpenClawRadar