Результаты тестирования: 15 языковых моделей проверены на 38 реальных рабочих задачах

✍️ OpenClawRadar📅 Опубликовано: 10 марта 2026 г.🔗 Source
Результаты тестирования: 15 языковых моделей проверены на 38 реальных рабочих задачах
Ad

Разработчик создал тестовую систему для определения, каким языковым моделям направлять задачи, протестировав 15 моделей на 38 задачах из своего реального рабочего процесса. Задачи включали преобразование CSV, подсчёт букв, модульную арифметику, соответствие формату и многошаговые инструкции. Все задачи оценивались программно с использованием регулярных выражений и точного совпадения — без привлечения языковой модели в качестве судьи.

Результаты тестирования

Тестирование включало 570 API-вызовов общей стоимостью $2,29. Ключевые выводы:

  • Claude 3.5 Opus: 100% результат, $0,69 за запуск, 14,2 секунды
  • Claude 3.5 Sonnet: 100% результат, $0,20 за запуск, 5,1 секунды
  • MiniMax M2.5: 98,60% результат, $0,02 за запуск, 2,3 секунды
  • Kimi K2.5: 98,60% результат, $0,05 за запуск, 3,8 секунды
  • GPT-oss-20b (локальная): 98,30% результат, $0 за запуск, 4,1 секунды
  • Gemini 2.5 Flash: 97,10% результат, $0,00 за запуск, 1,1 секунды
  • Claude 3.5 Haiku: 96,90% результат, $0,02 за запуск, 1,8 секунды
Ad

Анализ стоимости и производительности

Sonnet и Opus оба набрали 100%, но Opus стоит в 3,5 раза дороже за вызов. Для повседневных задач разработчика Sonnet справляется со всем тем же, что и Opus. Gemini Flash стоимостью $0,003 за запуск против Opus за $0,69 представляет собой 265-кратную разницу в стоимости при разнице в производительности всего 2,9 пункта.

Неожиданные результаты

MiniMax M2.5 и Kimi K2.5 оба достигли 98,6% со 100% соответствием формату — разработчик не использовал ни одну из этих моделей до проведения тестирования. Локально запущенный GPT-oss-20b набрал 98,3% за $0, превзойдя Haiku и DeepSeek R1.

Процесс контроля качества

Процесс контроля качества выявил ошибки в системе оценки. Первоначальные результаты показывали, что Haiku превосходит Sonnet, что оказалось ошибкой системы оценки, выдававшей результаты выше 100%. Было проведено пять проверок контроля качества, каждая с разной моделью, и каждая находила ошибки, пропущенные предыдущими.

Разработчик меняет свою основную модель на Sonnet на основе этих результатов, но планирует чаще переключаться между моделями из-за различий в производительности.

📖 Read the full source: r/ClaudeAI

Ad

👀 Смотрите также

Локальные модели Qwen достигают автоматизации браузера с пошаговым планированием и компактным DOM.
Инструменты

Локальные модели Qwen достигают автоматизации браузера с пошаговым планированием и компактным DOM.

Разработчик обнаружил, что небольшие локальные языковые модели, такие как Qwen 8B и 4B, успешно справляются с автоматизацией браузера, используя пошаговое планирование вместо предварительных многошаговых планов, в сочетании с компактным семантическим представлением DOM, которое сокращает использование токенов с 50–100K+ до ~15K для полных процессов.

OpenClawRadar
Основатель AgentMail рассказывает об адаптации для агентов после того, как OpenClaw раскрыл блокировку CAPTCHA
Инструменты

Основатель AgentMail рассказывает об адаптации для агентов после того, как OpenClaw раскрыл блокировку CAPTCHA

AgentMail, email API для ИИ-агентов, перестроил процесс адаптации после того, как его собственный агент OpenClaw не справился с CAPTCHA от Cloudflare. Новая система предлагает единую REST-точку для программного создания аккаунтов, сохраняя при этом участие человека для верификации.

OpenClawRadar
Двухмодельная архитектура сокращает потребление токенов вдвое для длинных диалогов.
Инструменты

Двухмодельная архитектура сокращает потребление токенов вдвое для длинных диалогов.

Разработчик создал двухмодельную систему, в которой небольшая 'подсознательная' модель сжимает историю диалога в фоновом режиме, позволяя основной модели работать с курируемым контекстом примерно в 35 тысяч токенов вместо 120 тысяч токенов сырой истории. Эта архитектура сокращает потребление токенов примерно вдвое при длительной проектной работе.

OpenClawRadar
Термрендер: 6-кратно эффективная по токенам ASCII-визуализация интерфейса для Claude
Инструменты

Термрендер: 6-кратно эффективная по токенам ASCII-визуализация интерфейса для Claude

Termrender — это инструмент с открытым исходным кодом на Python, который генерирует ASCII-визуализации интерфейсов с эффективностью использования токенов в 6 раз выше по сравнению с исходным выводом Claude. Он создаёт диаграммы и панели, используя минимальное количество токенов для более быстрой генерации и редактирования.

OpenClawRadar