Résultats de PinchBench : Premier Benchmark Spécifique aux Agents d'IA de Codage OpenClaw

✍️ OpenClawRadar📅 Publié: March 8, 2026🔗 Source

PinchBench est le premier benchmark conçu spécifiquement pour évaluer les agents de codage IA dans l'écosystème OpenClaw, classant les modèles selon leur taux de réussite, leur coût et leur vitesse.

Résultats clés

Le benchmark a testé 32 modèles. Les meilleurs performants par taux de réussite :

1. google/gemini-3-flash-preview : 95,1 % de réussite, 0,72 $ de coût, 254,50 s de vitesse
2. minimax/minimax-m2.1 : 93,6 % de réussite, 0,14 $ de coût, 239,79 s de vitesse
3. moonshotai/kimi-k2.5 : 93,4 % de réussite, 0,20 $ de coût, 291,67 s de vitesse
4. anthropic/claude-sonnet-4.5 : 92,7 % de réussite, 3,07 $ de coût, 304,53 s de vitesse
5. google/gemini-3-pro-preview : 91,7 % de réussite, 1,48 $ de coût, 239,55 s de vitesse

Observations notables

Les modèles Flash surpassent les modèles Pro à moindre coût : Gemini-3-Flash-Preview (95,1 %, 0,72 $) surpasse Gemini-3-Pro-Preview (91,7 %, 1,48 $)
Les modèles plus chers ne sont pas nécessairement meilleurs
Minimax 2.5 s'est classé 31e avec un taux de réussite de 35,5 % et une vitesse de 105,96 s (coût non indiqué)
Plusieurs modèles affichent des taux de réussite élevés au-dessus de 90 % tout en maintenant les coûts sous 1 $

Éventail des performances

Les taux de réussite vont de 95,1 % (meilleur) à 35,2 % (moins bon). Les options rentables incluent :

openai/gpt-5-nano : 85,8 % de réussite pour 0,03 $
google/gemini-2.5-flash-lite : 83,2 % de réussite pour 0,05 $
mistralai/devstral-2512 : 81,7 % de réussite pour 0,10 $

Plusieurs modèles en bas du classement (positions 23 à 32) affichent des taux de réussite d'environ 40 % ou moins, avec des coûts non indiqués dans les données fournies.

📖 Lire la source complète : r/openclaw

👀 See Also

Tools

Anthropic open-source Claude pour le droit : suite de plugins pour la révision de contrats, le tri des NDA et plus encore

Anthropic a publié Claude for Legal, un dépôt de plugins, d'agents et de connecteurs MCP pour les workflows juridiques, notamment la révision de contrats fournisseurs, le tri des NDA et la surveillance réglementaire.

May 15, 2026, 08:15 AM UTC

OpenClawRadar

Tools

SiteTest.ai lance un vérificateur gratuit de visibilité IA pour ChatGPT, Perplexity et Gemini

Nouvel outil gratuit sitetest.ai réalise un audit GEO en 168 points, en sondant GPTBot, PerplexityBot et Google-Extended sur votre serveur réel. Note de A à F par moteur, plus correctifs de code prêts à copier-coller.

May 7, 2026, 02:54 PM UTC

sitetest.ai team

Tools

Compétence apple-music-play OpenClaw publiée sur ClawHub pour la recherche et la lecture Apple Music

La compétence apple-music-play publiée sur ClawHub permet de rechercher dans le catalogue en ligne d'Apple Music et de lire des morceaux directement dans l'application Musique de macOS, sans nécessiter que les chansons soient dans votre bibliothèque locale.

Apr 21, 2026, 12:25 PM UTC

OpenClawRadar

Tools

Deblank : Outil pour Supprimer le Formatage du Code afin de Réduire les Tokens des LLM

Deblank est un outil open-source qui supprime la mise en forme du code (indentation, espaces, sauts de ligne) avant de l'envoyer aux LLM, réduisant les tokens d'environ 30 % pour Java/C++ et d'environ 9 % pour Python, avec une latence d'environ 76 ms. Il prend en charge Python, Java, C/C++, C#, JS/TS et Go.

Mar 23, 2026, 05:45 AM UTC

OpenClawRadar