PinchBench: Рейтинг 32 ИИ-моделей кодирования OpenClaw

PinchBench — это первый бенчмарк, специально разработанный для оценки ИИ-агентов, пишущих код, в экосистеме OpenClaw, который ранжирует модели по проценту успешных решений, стоимости и скорости.

Ключевые результаты

Бенчмарк протестировал 32 модели. Лучшие по проценту успешных решений:

1. google/gemini-3-flash-preview: 95,1% успеха, стоимость $0,72, скорость 254,50с
2. minimax/minimax-m2.1: 93,6% успеха, стоимость $0,14, скорость 239,79с
3. moonshotai/kimi-k2.5: 93,4% успеха, стоимость $0,20, скорость 291,67с
4. anthropic/claude-sonnet-4.5: 92,7% успеха, стоимость $3,07, скорость 304,53с
5. google/gemini-3-pro-preview: 91,7% успеха, стоимость $1,48, скорость 239,55с

Примечательные выводы

Flash-модели превосходят Pro-модели при меньшей стоимости: Gemini-3-Flash-Preview (95,1%, $0,72) обходит Gemini-3-Pro-Preview (91,7%, $1,48)
Более дорогие модели не обязательно работают лучше
Minimax 2.5 занял 31-е место с 35,5% успеха, скорость 105,96с (стоимость не указана)
Несколько моделей показывают высокий процент успеха выше 90%, сохраняя стоимость ниже $1

Диапазон производительности

Процент успешных решений варьируется от 95,1% (верх) до 35,2% (низ). К экономичным вариантам относятся:

openai/gpt-5-nano: 85,8% успеха за $0,03
google/gemini-2.5-flash-lite: 83,2% успеха за $0,05
mistralai/devstral-2512: 81,7% успеха за $0,10

Несколько моделей в нижней части рейтинга (позиции 23-32) показывают процент успеха около 40% или ниже, при этом стоимость не указана в предоставленных данных.

📖 Read the full source: r/openclaw

Результаты PinchBench: Первый эталонный тест для ИИ-агентов кодирования, специфичных для OpenClaw

Ключевые результаты

Примечательные выводы

Диапазон производительности

👀 Смотрите также

Открытый Плагин GTM для Claude Code с 166 Маркетинговыми Навыками и Командой Bootstrap

E2a: Открытый почтовый шлюз для ИИ-агентов с верификацией SPF/DKIM и доставкой через Webhook/WebSocket

Обновление Hawkeye добавляет оркестрацию роя, удаленные задачи и поддержку локальных моделей.

mnemos: постоянный слой памяти для ИИ-агентов программирования (Go, MCP-Native, без Python)