Тест 15 языковых моделей: какие справились с 38 рабочими задачами

Разработчик создал тестовую систему для определения, каким языковым моделям направлять задачи, протестировав 15 моделей на 38 задачах из своего реального рабочего процесса. Задачи включали преобразование CSV, подсчёт букв, модульную арифметику, соответствие формату и многошаговые инструкции. Все задачи оценивались программно с использованием регулярных выражений и точного совпадения — без привлечения языковой модели в качестве судьи.

Результаты тестирования

Тестирование включало 570 API-вызовов общей стоимостью $2,29. Ключевые выводы:

Claude 3.5 Opus: 100% результат, $0,69 за запуск, 14,2 секунды
Claude 3.5 Sonnet: 100% результат, $0,20 за запуск, 5,1 секунды
MiniMax M2.5: 98,60% результат, $0,02 за запуск, 2,3 секунды
Kimi K2.5: 98,60% результат, $0,05 за запуск, 3,8 секунды
GPT-oss-20b (локальная): 98,30% результат, $0 за запуск, 4,1 секунды
Gemini 2.5 Flash: 97,10% результат, $0,00 за запуск, 1,1 секунды
Claude 3.5 Haiku: 96,90% результат, $0,02 за запуск, 1,8 секунды

Анализ стоимости и производительности

Sonnet и Opus оба набрали 100%, но Opus стоит в 3,5 раза дороже за вызов. Для повседневных задач разработчика Sonnet справляется со всем тем же, что и Opus. Gemini Flash стоимостью $0,003 за запуск против Opus за $0,69 представляет собой 265-кратную разницу в стоимости при разнице в производительности всего 2,9 пункта.

Неожиданные результаты

MiniMax M2.5 и Kimi K2.5 оба достигли 98,6% со 100% соответствием формату — разработчик не использовал ни одну из этих моделей до проведения тестирования. Локально запущенный GPT-oss-20b набрал 98,3% за $0, превзойдя Haiku и DeepSeek R1.

Процесс контроля качества

Процесс контроля качества выявил ошибки в системе оценки. Первоначальные результаты показывали, что Haiku превосходит Sonnet, что оказалось ошибкой системы оценки, выдававшей результаты выше 100%. Было проведено пять проверок контроля качества, каждая с разной моделью, и каждая находила ошибки, пропущенные предыдущими.

Разработчик меняет свою основную модель на Sonnet на основе этих результатов, но планирует чаще переключаться между моделями из-за различий в производительности.

📖 Read the full source: r/ClaudeAI

Результаты тестирования: 15 языковых моделей проверены на 38 реальных рабочих задачах

Результаты тестирования

Анализ стоимости и производительности

Неожиданные результаты

Процесс контроля качества

👀 Смотрите также

ClawCut: Python-прокси, который делает небольшие локальные LLM пригодными для использования с OpenClaw

HostMyClaudeHTML: Публикация HTML-артефактов Claude в один клик

soul.py добавляет постоянную память локальным LLM с помощью простого файлового подхода.

boxBot: Интеллектуальная колонка с открытым исходным кодом на базе Claude и Hailo AI