Résultats de PinchBench : Premier Benchmark Spécifique aux Agents d'IA de Codage OpenClaw

PinchBench est le premier benchmark conçu spécifiquement pour évaluer les agents de codage IA dans l'écosystème OpenClaw, classant les modèles selon leur taux de réussite, leur coût et leur vitesse.
Résultats clés
Le benchmark a testé 32 modèles. Les meilleurs performants par taux de réussite :
- 1. google/gemini-3-flash-preview : 95,1 % de réussite, 0,72 $ de coût, 254,50 s de vitesse
- 2. minimax/minimax-m2.1 : 93,6 % de réussite, 0,14 $ de coût, 239,79 s de vitesse
- 3. moonshotai/kimi-k2.5 : 93,4 % de réussite, 0,20 $ de coût, 291,67 s de vitesse
- 4. anthropic/claude-sonnet-4.5 : 92,7 % de réussite, 3,07 $ de coût, 304,53 s de vitesse
- 5. google/gemini-3-pro-preview : 91,7 % de réussite, 1,48 $ de coût, 239,55 s de vitesse
Observations notables
- Les modèles Flash surpassent les modèles Pro à moindre coût : Gemini-3-Flash-Preview (95,1 %, 0,72 $) surpasse Gemini-3-Pro-Preview (91,7 %, 1,48 $)
- Les modèles plus chers ne sont pas nécessairement meilleurs
- Minimax 2.5 s'est classé 31e avec un taux de réussite de 35,5 % et une vitesse de 105,96 s (coût non indiqué)
- Plusieurs modèles affichent des taux de réussite élevés au-dessus de 90 % tout en maintenant les coûts sous 1 $
Éventail des performances
Les taux de réussite vont de 95,1 % (meilleur) à 35,2 % (moins bon). Les options rentables incluent :
- openai/gpt-5-nano : 85,8 % de réussite pour 0,03 $
- google/gemini-2.5-flash-lite : 83,2 % de réussite pour 0,05 $
- mistralai/devstral-2512 : 81,7 % de réussite pour 0,10 $
Plusieurs modèles en bas du classement (positions 23 à 32) affichent des taux de réussite d'environ 40 % ou moins, avec des coûts non indiqués dans les données fournies.
📖 Lire la source complète : r/openclaw
👀 See Also

Fournisseur OAuth prêt à l'emploi pour les serveurs FastMCP personnels sur toutes les plateformes Claude
Un développeur a créé un fournisseur OAuth Python en un seul fichier qui permet aux serveurs FastMCP personnels de fonctionner sur les plateformes Claude.ai web, mobile et Desktop sans nécessiter de services d'identité externes comme Auth0 ou Google.

Eden AI : Hub européen d’API pour modèles d’IA – Se positionne comme alternative à OpenRouter
Eden AI propose une API unifiée pour accéder à plus de 500 modèles d'IA (LLM, vision, OCR, parole) avec routage intelligent, mécanismes de repli et contrôle de région. Positionné comme une alternative européenne à OpenRouter.

Memora v0.2.25 Serveur MCP : Écritures 5 fois plus rapides sur la base de données D1
Memora v0.2.25, un serveur MCP pour la mémoire persistante de Claude, atteint des écritures 5 fois plus rapides sur Cloudflare D1, avec memory_create passant de plus de 10s à ~1,8s et memory_update de plus de 10s à ~1,1s par appel.

Quatre Crochets de Code Claude Appliquent la Cohérence de Voix et de Ton dans les Textes Rédigés par l'IA
Un développeur a créé un système utilisant quatre crochets Claude Code pour empêcher que les textes générés par l'IA ne s'éloignent de l'identité de marque. Le système bloque l'édition des fichiers de texte (.tsx, .md) jusqu'à ce qu'un agent réviseur valide le contenu par rapport à un guide VOICE-AND-TONE.md.