Результаты PinchBench: Первый эталонный тест для ИИ-агентов кодирования, специфичных для OpenClaw

✍️ OpenClawRadar📅 Опубликовано: 8 марта 2026 г.🔗 Source
Результаты PinchBench: Первый эталонный тест для ИИ-агентов кодирования, специфичных для OpenClaw
Ad

PinchBench — это первый бенчмарк, специально разработанный для оценки ИИ-агентов, пишущих код, в экосистеме OpenClaw, который ранжирует модели по проценту успешных решений, стоимости и скорости.

Ключевые результаты

Бенчмарк протестировал 32 модели. Лучшие по проценту успешных решений:

  • 1. google/gemini-3-flash-preview: 95,1% успеха, стоимость $0,72, скорость 254,50с
  • 2. minimax/minimax-m2.1: 93,6% успеха, стоимость $0,14, скорость 239,79с
  • 3. moonshotai/kimi-k2.5: 93,4% успеха, стоимость $0,20, скорость 291,67с
  • 4. anthropic/claude-sonnet-4.5: 92,7% успеха, стоимость $3,07, скорость 304,53с
  • 5. google/gemini-3-pro-preview: 91,7% успеха, стоимость $1,48, скорость 239,55с
Ad

Примечательные выводы

  • Flash-модели превосходят Pro-модели при меньшей стоимости: Gemini-3-Flash-Preview (95,1%, $0,72) обходит Gemini-3-Pro-Preview (91,7%, $1,48)
  • Более дорогие модели не обязательно работают лучше
  • Minimax 2.5 занял 31-е место с 35,5% успеха, скорость 105,96с (стоимость не указана)
  • Несколько моделей показывают высокий процент успеха выше 90%, сохраняя стоимость ниже $1

Диапазон производительности

Процент успешных решений варьируется от 95,1% (верх) до 35,2% (низ). К экономичным вариантам относятся:

  • openai/gpt-5-nano: 85,8% успеха за $0,03
  • google/gemini-2.5-flash-lite: 83,2% успеха за $0,05
  • mistralai/devstral-2512: 81,7% успеха за $0,10

Несколько моделей в нижней части рейтинга (позиции 23-32) показывают процент успеха около 40% или ниже, при этом стоимость не указана в предоставленных данных.

📖 Read the full source: r/openclaw

Ad

👀 Смотрите также

Открытый Плагин GTM для Claude Code с 166 Маркетинговыми Навыками и Командой Bootstrap
Инструменты

Открытый Плагин GTM для Claude Code с 166 Маркетинговыми Навыками и Командой Bootstrap

Разработчик выпустил плагин Go-To-Market с открытым исходным кодом для Claude Code, который предоставляет 166 специализированных маркетинговых навыков в областях SEO, контента, исходящего маркетинга, продаж, роста, аналитики, стратегии, рекламы, социальных сетей, CRM и AI-поиска. Плагин включает команду /bootstrap, которая проводит опрос пользователей об их бренде для создания персонализированных контекстных файлов.

OpenClawRadar
E2a: Открытый почтовый шлюз для ИИ-агентов с верификацией SPF/DKIM и доставкой через Webhook/WebSocket
Инструменты

E2a: Открытый почтовый шлюз для ИИ-агентов с верификацией SPF/DKIM и доставкой через Webhook/WebSocket

E2a — это аутентифицированный почтовый шлюз для AI-агентов, который проверяет SPF/DKIM для входящих писем, доставляет их через вебхук или WebSocket и поддерживает исходящую почту с подтверждением человеком.

OpenClawRadar
Обновление Hawkeye добавляет оркестрацию роя, удаленные задачи и поддержку локальных моделей.
Инструменты

Обновление Hawkeye добавляет оркестрацию роя, удаленные задачи и поддержку локальных моделей.

Hawkeye v1.0+ теперь поддерживает оркестрацию мультиагентных роев, удаленную очередь задач и улучшенную интеграцию с Ollama/LM Studio. Локальный рекордер полета ИИ-агентов помогает разработчикам отслеживать, что происходит, когда агенты работают в репозиториях.

OpenClawRadar
mnemos: постоянный слой памяти для ИИ-агентов программирования (Go, MCP-Native, без Python)
Инструменты

mnemos: постоянный слой памяти для ИИ-агентов программирования (Go, MCP-Native, без Python)

mnemos — это Go-основанный MCP-нативный слой памяти для AI-агентов, занимающихся кодингом. Автор создал верификатор для измерения прироста: +40% в совокупности для сценариев чтения, но только 53% захвата при записи после итеративных исправлений.

OpenClawRadar