Результаты тестирования: 15 языковых моделей проверены на 38 реальных рабочих задачах

Разработчик создал тестовую систему для определения, каким языковым моделям направлять задачи, протестировав 15 моделей на 38 задачах из своего реального рабочего процесса. Задачи включали преобразование CSV, подсчёт букв, модульную арифметику, соответствие формату и многошаговые инструкции. Все задачи оценивались программно с использованием регулярных выражений и точного совпадения — без привлечения языковой модели в качестве судьи.
Результаты тестирования
Тестирование включало 570 API-вызовов общей стоимостью $2,29. Ключевые выводы:
- Claude 3.5 Opus: 100% результат, $0,69 за запуск, 14,2 секунды
- Claude 3.5 Sonnet: 100% результат, $0,20 за запуск, 5,1 секунды
- MiniMax M2.5: 98,60% результат, $0,02 за запуск, 2,3 секунды
- Kimi K2.5: 98,60% результат, $0,05 за запуск, 3,8 секунды
- GPT-oss-20b (локальная): 98,30% результат, $0 за запуск, 4,1 секунды
- Gemini 2.5 Flash: 97,10% результат, $0,00 за запуск, 1,1 секунды
- Claude 3.5 Haiku: 96,90% результат, $0,02 за запуск, 1,8 секунды
Анализ стоимости и производительности
Sonnet и Opus оба набрали 100%, но Opus стоит в 3,5 раза дороже за вызов. Для повседневных задач разработчика Sonnet справляется со всем тем же, что и Opus. Gemini Flash стоимостью $0,003 за запуск против Opus за $0,69 представляет собой 265-кратную разницу в стоимости при разнице в производительности всего 2,9 пункта.
Неожиданные результаты
MiniMax M2.5 и Kimi K2.5 оба достигли 98,6% со 100% соответствием формату — разработчик не использовал ни одну из этих моделей до проведения тестирования. Локально запущенный GPT-oss-20b набрал 98,3% за $0, превзойдя Haiku и DeepSeek R1.
Процесс контроля качества
Процесс контроля качества выявил ошибки в системе оценки. Первоначальные результаты показывали, что Haiku превосходит Sonnet, что оказалось ошибкой системы оценки, выдававшей результаты выше 100%. Было проведено пять проверок контроля качества, каждая с разной моделью, и каждая находила ошибки, пропущенные предыдущими.
Разработчик меняет свою основную модель на Sonnet на основе этих результатов, но планирует чаще переключаться между моделями из-за различий в производительности.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

ClawCut: Python-прокси, который делает небольшие локальные LLM пригодными для использования с OpenClaw
ClawCut — это прокси-сервер на Python Flask, который решает распространённые проблемы при подключении локальных моделей 7B/14B к OpenClaw, включая отравление контекста, бесконечные циклы и сбои в выводе cron-задач. Он реализует динамическую амнезию во время вызовов инструментов и автоматическую доставку для запланированных задач.

HostMyClaudeHTML: Публикация HTML-артефактов Claude в один клик
Разработчик создал hostmyclaudehtml.com — бесплатный инструмент, который позволяет делиться HTML-артефактами, сгенерированными Claude, в виде живых URL-адресов, просто перетаскивая файл .html. Для загрузчиков и просматривающих не требуется аккаунт.

soul.py добавляет постоянную память локальным LLM с помощью простого файлового подхода.
soul.py — это библиотека Python, которая добавляет постоянную память любому LLM, используя два файла в формате markdown для идентификации и ведения журнала разговоров, работая с моделями Ollama, OpenAI и Anthropic без необходимости в базах данных или серверах.

boxBot: Интеллектуальная колонка с открытым исходным кодом на базе Claude и Hailo AI
Разработчик под ником FunScore645 создал умную колонку boxBot, использующую Claude для агентного управления аппаратным обеспечением, Raspberry Pi, ускоритель ИИ Hailo и собственный SDK — проект с открытым исходным кодом на GitHub.