Resultados de PinchBench: Primer Benchmark Específico de Agentes de IA de Codificación OpenClaw

✍️ OpenClawRadar📅 Publicado: 8 de marzo de 2026🔗 Source
Resultados de PinchBench: Primer Benchmark Específico de Agentes de IA de Codificación OpenClaw
Ad

PinchBench es el primer benchmark diseñado específicamente para evaluar agentes de codificación de IA en el ecosistema OpenClaw, clasificando modelos por tasa de éxito, costo y velocidad.

Resultados Clave

El benchmark evaluó 32 modelos. Los mejores rendimientos por tasa de éxito:

  • 1. google/gemini-3-flash-preview: 95,1% de éxito, $0,72 de costo, 254,50s de velocidad
  • 2. minimax/minimax-m2.1: 93,6% de éxito, $0,14 de costo, 239,79s de velocidad
  • 3. moonshotai/kimi-k2.5: 93,4% de éxito, $0,20 de costo, 291,67s de velocidad
  • 4. anthropic/claude-sonnet-4.5: 92,7% de éxito, $3,07 de costo, 304,53s de velocidad
  • 5. google/gemini-3-pro-preview: 91,7% de éxito, $1,48 de costo, 239,55s de velocidad
Ad

Hallazgos Destacados

  • Los modelos Flash superan a los modelos Pro con menor costo: Gemini-3-Flash-Preview (95,1%, $0,72) supera a Gemini-3-Pro-Preview (91,7%, $1,48)
  • Los modelos más caros no necesariamente tienen mejor rendimiento
  • Minimax 2.5 ocupó el puesto 31 con una tasa de éxito del 35,5%, 105,96s de velocidad (costo no listado)
  • Varios modelos muestran altas tasas de éxito superiores al 90% manteniendo costos inferiores a $1

Rango de Rendimiento

Las tasas de éxito varían del 95,1% (máximo) al 35,2% (mínimo). Las opciones rentables incluyen:

  • openai/gpt-5-nano: 85,8% de éxito por $0,03
  • google/gemini-2.5-flash-lite: 83,2% de éxito por $0,05
  • mistralai/devstral-2512: 81,7% de éxito por $0,10

Varios modelos en la parte inferior de la clasificación (posiciones 23-32) muestran tasas de éxito alrededor del 40% o menos, con costos no listados en los datos proporcionados.

📖 Read the full source: r/openclaw

Ad

👀 Ver también

Habilidad de Crecimiento Claude: Manuales de Crecimiento Estructurados para SaaS B2B de Agentes de Codificación con IA
Herramientas

Habilidad de Crecimiento Claude: Manuales de Crecimiento Estructurados para SaaS B2B de Agentes de Codificación con IA

Un desarrollador creó una Habilidad de Crecimiento de Claude que contiene 6 manuales probados en batalla basados en 5 estudios de caso de SaaS, asociaciones de $90M ARR y 1,800 entrevistas con usuarios. Estructura el trabajo de crecimiento de SaaS B2B desde la validación de PMF hasta el ecosistema de canales y ventas.

OpenClawRadar
Prompt-Mini: El Complemento de Claude Code Intercepta Indicaciones Vagas para Reducir el Desperdicio de Créditos
Herramientas

Prompt-Mini: El Complemento de Claude Code Intercepta Indicaciones Vagas para Reducir el Desperdicio de Créditos

Prompt-mini es un complemento de Claude Code que intercepta indicaciones vagas antes de su ejecución, formula preguntas aclaratorias y construye indicaciones estructuradas con detección de pila y reglas específicas para más de 40 marcos de trabajo. La herramienta aborda 35 patrones que consumen créditos, como la falta de alcance, condiciones de parada y rutas de archivo.

OpenClawRadar
Kanban CLI: Un gestor de tareas local y orientado a agentes para la terminal
Herramientas

Kanban CLI: Un gestor de tareas local y orientado a agentes para la terminal

Kanban CLI es una herramienta de terminal basada en Rust que proporciona gestión estructurada de tareas con integración completa de git, diseñada para flujos de trabajo impulsados por agentes de IA.

OpenClawRadar
Presentamos OneTool MCP: una herramienta multiusos de código abierto para desarrolladores.
Herramientas

Presentamos OneTool MCP: una herramienta multiusos de código abierto para desarrolladores.

OneTool MCP, construido con Claude AI, ofrece a los desarrolladores más de 100 herramientas para tareas como búsquedas web, actualizaciones de bibliotecas y gestión de archivos sin impuestos sobre herramientas ni problemas de descontextualización.

OpenClawRadar