Анализ цен на модели OpenRouter и эффективности затрат на интеллектуальные возможности

Сравнение интеллекта и цены моделей
Разработчик проанализировал цены API OpenRouter для 16 моделей ИИ и рассчитал показатели интеллекта на доллар, чтобы помочь в выборе моделей для конкретных задач. Метрика интеллекта объединяет семь тестов: Artificial Analysis Intelligence Index, Agentic Index, Coding Index, Artificial Analysis Omnicience Index (перемасштабированный до 0–100), GPDval-AA, Terminal-Bench Hard и t2-Bench Telecom.
Ключевые выводы
Анализ выявил несколько выдающихся моделей:
- Лучший интеллект: GPT-5.4 (58,8 интеллекта, $2,50/М токенов) и Gemini 3.1 Pro (58,6 интеллекта, $2,00/М токенов)
- Лучшее соотношение цены и качества: MiMo-V2-Flash (39,9 интеллекта, $0,09/М токенов, 443 балл ценности)
- Сбалансированные модели: GLM-5, Kimi K2.5 и Gemini 3 Flash
Детали и возможности моделей
Полный набор данных включает:
- MiMo-V2-Flash: 39,9 интеллекта, $0,09/М токенов, 443 ценность, только текст
- Step 3.5 Flash: 34,8 интеллекта, $0,10/М токенов, 348 ценность, общие быстрые текстовые задачи
- Grok 4.1 Fast: 41,2 интеллекта, $0,20/М токенов, 205 ценность, окно контекста 2М, высокая скорость маршрутизации и извлечения
- MiniMax M2.5: 40,3 интеллекта, $0,27/М токенов, 149 ценность, открытый исходный код, отличная производительность в реальных задачах программирования
- DeepSeek V3.2: 34,6 интеллекта, $0,25/М токенов, 138 ценность, сильные возможности в программировании и логике, поддерживает кэширование API
- Kimi K2.5: 45,8 интеллекта, $0,45/М токенов, 101 ценность, окно контекста 262K, широкие общие знания
- Gemini 3 Flash: 47,7 интеллекта, $0,50/М токенов, 95 ценность, мультимодальная с поддержкой аудиоввода
- GLM-4.7: 31,6 интеллекта, $0,38/М токенов, 83 ценность, общая генерация текста
- Qwen 3.5: 41,1 интеллекта, $0,60/М токенов, 68 ценность, сильная общая производительность, универсальная
- GLM-5: 49,5 интеллекта, $0,80/М токенов, 61 ценность, окно контекста 200K, общие знания
- Claude Haiku 4.5: 36,5 интеллекта, $1,00/М токенов, 36 ценность, быстрая и дешёвая, поддержка расширенного мышления
- GPT-5.3: 55,9 интеллекта, $1,75/М токенов, 32 ценность, общие рассуждения и обработка текста
- GPT-5.2: 50,8 интеллекта, $1,75/М токенов, 29 ценность, отлично подходит для программирования + агентных задач
- Gemini 3.1 Pro: 58,6 интеллекта, $2,00/М токенов, 29 ценность, мультимодальный анализ, поддержка вывода изображений
- Grok 4.2 Beta: 49,6 интеллекта, $2,00/М токенов, 25 ценность, сложные рассуждения, широкая база знаний
- GPT-5.4: 58,8 интеллекта, $2,50/М токенов, 24 ценность, переменные уровни контекста (<272K / >272K), рассуждения высшего уровня
- Claude Sonnet 4.6: 52,3 интеллекта, $3,00/М токенов, 17 ценность, рабочая лошадка, обучена по январь 2026
- Claude Opus 4.6: 51,9 интеллекта, $5,00/М токенов, 10 ценность, рассуждения высшего уровня, сильнейшая для программирования и разработки ПО
Примечательные наблюдения
Анализ отмечает, что более умные модели обычно имеют худшие показатели ценности, но это может не отражать реальную эффективность. Например, если Qwen 3.5 использует 500 000 токенов и 30 минут для решения проблемы неправильно, а Sonnet решает её правильно за одну десятую времени, Sonnet может оказаться лучше по соотношению цены и качества, несмотря на более низкий показатель интеллекта на доллар.
Окно контекста в 2М у Grok 4.1 даёт ему прирост интеллекта, который не проявится в большинстве случаев использования. MiniMax 2.5 превосходит его по всем метрикам, кроме окна контекста.
GLM-5 — последняя модель перед значительным падением ценности (с 61 до 36 у Claude Haiku 4.5) и, по сообщениям, почти так же умна, как GPT-5.2.
📖 Read the full source: r/openclaw
👀 Смотрите также

Результаты тестирования небольших локальных моделей и моделей OpenRouter на задаче агентного преобразования текста в SQL
Разработчик протестировал несколько небольших локальных моделей и моделей OpenRouter с использованием пользовательского агентного бенчмарка text-to-SQL, который преобразует английские запросы в SQL с раундами отладки. Бенчмарк включает 25 вопросов, выполняется менее чем за 5 минут и выявляет лучшие модели, такие как kimi-k2.5 и варианты Qwen 3.5.

Кодекс Соединенных Штатов доступен в виде репозитория Git с полной историей изменений.
Свод законов США доступен в виде Git-репозитория, где всё федеральное законодательство хранится в файлах Markdown. Каждый коммит представляет собой снимок состояния на определённый момент времени с 2013 года по настоящее время, что позволяет разработчикам использовать команды git diff, git log и git blame для отслеживания изменений в законодательстве.

ArayCode: Десктопный CLI-клиент для OpenClaw с голосом, мультиагентными горячими клавишами и Markdown UI
ArayCode превращает OpenClaw в десктопное CLI-приложение с голосовым вводом/выводом, мультиагентными горячими клавишами, темами и UI на Markdown, построенным на Spectre.Console. Поддерживает облачные и локальные STT/TTS-провайдеры.

ShareMyClaudeMD: Инструмент преобразует файлы Markdown, созданные Claude, в доступные для общего доступа отрендеренные страницы
Разработчик создал sharemyclaudemd.com — бесплатный инструмент, который преобразует любой файл Markdown в живую, отрендеренную страницу с доступной для общего доступа ссылкой и QR-кодом. Инструмент решает проблему сложности обмена файлами Markdown, сгенерированными Claude, что часто требует от получателей открывать их в специальном редакторе или загружать на GitHub только для просмотра в отрендеренном виде.