Resultados de PinchBench: Primer Benchmark Específico de Agentes de IA de Codificación OpenClaw

PinchBench es el primer benchmark diseñado específicamente para evaluar agentes de codificación de IA en el ecosistema OpenClaw, clasificando modelos por tasa de éxito, costo y velocidad.
Resultados Clave
El benchmark evaluó 32 modelos. Los mejores rendimientos por tasa de éxito:
- 1. google/gemini-3-flash-preview: 95,1% de éxito, $0,72 de costo, 254,50s de velocidad
- 2. minimax/minimax-m2.1: 93,6% de éxito, $0,14 de costo, 239,79s de velocidad
- 3. moonshotai/kimi-k2.5: 93,4% de éxito, $0,20 de costo, 291,67s de velocidad
- 4. anthropic/claude-sonnet-4.5: 92,7% de éxito, $3,07 de costo, 304,53s de velocidad
- 5. google/gemini-3-pro-preview: 91,7% de éxito, $1,48 de costo, 239,55s de velocidad
Hallazgos Destacados
- Los modelos Flash superan a los modelos Pro con menor costo: Gemini-3-Flash-Preview (95,1%, $0,72) supera a Gemini-3-Pro-Preview (91,7%, $1,48)
- Los modelos más caros no necesariamente tienen mejor rendimiento
- Minimax 2.5 ocupó el puesto 31 con una tasa de éxito del 35,5%, 105,96s de velocidad (costo no listado)
- Varios modelos muestran altas tasas de éxito superiores al 90% manteniendo costos inferiores a $1
Rango de Rendimiento
Las tasas de éxito varían del 95,1% (máximo) al 35,2% (mínimo). Las opciones rentables incluyen:
- openai/gpt-5-nano: 85,8% de éxito por $0,03
- google/gemini-2.5-flash-lite: 83,2% de éxito por $0,05
- mistralai/devstral-2512: 81,7% de éxito por $0,10
Varios modelos en la parte inferior de la clasificación (posiciones 23-32) muestran tasas de éxito alrededor del 40% o menos, con costos no listados en los datos proporcionados.
📖 Read the full source: r/openclaw
👀 Ver también

Layerkit: Editor de Imágenes con IA con Capas Editables Desarrollado con Claude Code
Un desarrollador creó Layerkit, un editor de imágenes basado en IA que funciona en el navegador y genera escenas con capas editables para evitar tener que reescribir constantemente las indicaciones. La herramienta utiliza un proceso de IA de múltiples etapas donde un modelo de lenguaje planifica la composición, un modelo de imágenes genera la escena y otro modelo de lenguaje analiza la imagen real para colocar texto legible.

Los complementos de LM Studio añaden análisis de imágenes web para LLMs con capacidades visuales.
Un desarrollador creó complementos para LM Studio que permiten a los LLM con capacidades visuales obtener y analizar imágenes de la web, con procesamiento automático de imágenes y encadenamiento de herramientas. Los complementos funcionan con modelos como Qwen 3.5 9b/27b e incluyen funcionalidades actualizadas de Duck-Duck-Go y Visitar Sitio Web.

Extensión de Navegador WeAreHere y Herramientas MCP Escanean Prácticas de Privacidad de Sitios Web
Dos herramientas de código abierto—barebrowse y wearehere—escanean sitios web en busca de rastreadores, huellas digitales y conexiones con corredores de datos. La extensión de navegador wearehere muestra puntuaciones de privacidad en tiempo real (0-100) mientras navegas, mientras que los servidores MCP permiten que los asistentes de IA evalúen cualquier sitio bajo demanda.

La Autoinvestigación de Karpathy Portada al Motor Neuronal de Apple para Mejor Rendimiento por Vatio
Un prototipo combina el proyecto de investigación automática de Andrej Karpathy con el rendimiento de ingeniería inversa del Motor Neuronal de Apple, con el objetivo de lograr un mejor rendimiento por vatio en comparación con las API oficiales. El proyecto se basa en repositorios de GitHub existentes y reconoce las contribuciones de múltiples desarrolladores.