Resultados do PinchBench: Primeiro Benchmark Específico para Agentes de IA de Codificação OpenClaw

PinchBench é o primeiro benchmark projetado especificamente para avaliar agentes de codificação de IA no ecossistema OpenClaw, classificando modelos por taxa de sucesso, custo e velocidade.
Principais Resultados
O benchmark testou 32 modelos. Os melhores desempenhos por taxa de sucesso:
- 1. google/gemini-3-flash-preview: 95,1% de sucesso, US$ 0,72 de custo, 254,50s de velocidade
- 2. minimax/minimax-m2.1: 93,6% de sucesso, US$ 0,14 de custo, 239,79s de velocidade
- 3. moonshotai/kimi-k2.5: 93,4% de sucesso, US$ 0,20 de custo, 291,67s de velocidade
- 4. anthropic/claude-sonnet-4.5: 92,7% de sucesso, US$ 3,07 de custo, 304,53s de velocidade
- 5. google/gemini-3-pro-preview: 91,7% de sucesso, US$ 1,48 de custo, 239,55s de velocidade
Descobertas Notáveis
- Modelos Flash superam modelos Pro com custo menor: Gemini-3-Flash-Preview (95,1%, US$ 0,72) supera Gemini-3-Pro-Preview (91,7%, US$ 1,48)
- Modelos mais caros não necessariamente têm melhor desempenho
- Minimax 2.5 ficou em 31º lugar com taxa de sucesso de 35,5%, velocidade de 105,96s (custo não listado)
- Vários modelos mostram altas taxas de sucesso acima de 90% mantendo custos abaixo de US$ 1
Faixa de Desempenho
As taxas de sucesso variam de 95,1% (topo) a 35,2% (fundo). Opções custo-efetivas incluem:
- openai/gpt-5-nano: 85,8% de sucesso por US$ 0,03
- google/gemini-2.5-flash-lite: 83,2% de sucesso por US$ 0,05
- mistralai/devstral-2512: 81,7% de sucesso por US$ 0,10
Vários modelos no final da classificação (posições 23-32) mostram taxas de sucesso em torno de 40% ou menos, com custos não listados nos dados fornecidos.
📖 Leia a fonte completa: r/openclaw
👀 See Also

Pesquisa semântica local para conversas de IA com fastembed e LanceDB
Um desenvolvedor indexou 368 mil mensagens de conversas de IA localmente usando fastembed para embeddings baseados em CPU e LanceDB como armazenamento vetorial serverless, alcançando latência de busca p50 de 12ms sem chaves de API.

PocketBot Beta: Agente de IA para iOS com Privacidade em Primeiro Lugar e Motor Híbrido Local/Nuvem
PocketBot é um agente de IA para iOS que opera em segundo plano, integra-se aos App Intents e utiliza um motor híbrido: execução local para gatilhos do sistema e sanitização de PII, com processamento em nuvem para tarefas complexas como resumo de e-mails ou reserva de voos.

ClawCut Proxy Lançado no GitHub para Otimizar OpenClaw para Pequenos LLMs
ClawCut é um proxy experimental que manipula, injeta chamadas JSON e extrai ruído JSON do OpenClaw para reduzir a sobrecarga cognitiva em modelos pequenos (7B-8B) executados em hardware limitado.

Ctxpact: Proxy de Compactação de Contexto para LLMs Locais
Ctxpact é um proxy compatível com OpenAI que comprime entradas excessivamente grandes para LLMs locais com janelas de contexto de 16k, usando um pipeline de 3 etapas que inclui estratégias de DCP, sumarização e extração. Benchmarks mostram 110k tokens comprimidos para 12k com 8/8 de precisão em compreensão de leitura.