Результаты PinchBench: Первый эталонный тест для ИИ-агентов кодирования, специфичных для OpenClaw

PinchBench — это первый бенчмарк, специально разработанный для оценки ИИ-агентов, пишущих код, в экосистеме OpenClaw, который ранжирует модели по проценту успешных решений, стоимости и скорости.
Ключевые результаты
Бенчмарк протестировал 32 модели. Лучшие по проценту успешных решений:
- 1. google/gemini-3-flash-preview: 95,1% успеха, стоимость $0,72, скорость 254,50с
- 2. minimax/minimax-m2.1: 93,6% успеха, стоимость $0,14, скорость 239,79с
- 3. moonshotai/kimi-k2.5: 93,4% успеха, стоимость $0,20, скорость 291,67с
- 4. anthropic/claude-sonnet-4.5: 92,7% успеха, стоимость $3,07, скорость 304,53с
- 5. google/gemini-3-pro-preview: 91,7% успеха, стоимость $1,48, скорость 239,55с
Примечательные выводы
- Flash-модели превосходят Pro-модели при меньшей стоимости: Gemini-3-Flash-Preview (95,1%, $0,72) обходит Gemini-3-Pro-Preview (91,7%, $1,48)
- Более дорогие модели не обязательно работают лучше
- Minimax 2.5 занял 31-е место с 35,5% успеха, скорость 105,96с (стоимость не указана)
- Несколько моделей показывают высокий процент успеха выше 90%, сохраняя стоимость ниже $1
Диапазон производительности
Процент успешных решений варьируется от 95,1% (верх) до 35,2% (низ). К экономичным вариантам относятся:
- openai/gpt-5-nano: 85,8% успеха за $0,03
- google/gemini-2.5-flash-lite: 83,2% успеха за $0,05
- mistralai/devstral-2512: 81,7% успеха за $0,10
Несколько моделей в нижней части рейтинга (позиции 23-32) показывают процент успеха около 40% или ниже, при этом стоимость не указана в предоставленных данных.
📖 Read the full source: r/openclaw
👀 Смотрите также

Открытый Плагин GTM для Claude Code с 166 Маркетинговыми Навыками и Командой Bootstrap
Разработчик выпустил плагин Go-To-Market с открытым исходным кодом для Claude Code, который предоставляет 166 специализированных маркетинговых навыков в областях SEO, контента, исходящего маркетинга, продаж, роста, аналитики, стратегии, рекламы, социальных сетей, CRM и AI-поиска. Плагин включает команду /bootstrap, которая проводит опрос пользователей об их бренде для создания персонализированных контекстных файлов.

E2a: Открытый почтовый шлюз для ИИ-агентов с верификацией SPF/DKIM и доставкой через Webhook/WebSocket
E2a — это аутентифицированный почтовый шлюз для AI-агентов, который проверяет SPF/DKIM для входящих писем, доставляет их через вебхук или WebSocket и поддерживает исходящую почту с подтверждением человеком.

Обновление Hawkeye добавляет оркестрацию роя, удаленные задачи и поддержку локальных моделей.
Hawkeye v1.0+ теперь поддерживает оркестрацию мультиагентных роев, удаленную очередь задач и улучшенную интеграцию с Ollama/LM Studio. Локальный рекордер полета ИИ-агентов помогает разработчикам отслеживать, что происходит, когда агенты работают в репозиториях.

mnemos: постоянный слой памяти для ИИ-агентов программирования (Go, MCP-Native, без Python)
mnemos — это Go-основанный MCP-нативный слой памяти для AI-агентов, занимающихся кодингом. Автор создал верификатор для измерения прироста: +40% в совокупности для сценариев чтения, но только 53% захвата при записи после итеративных исправлений.