Бенчмаркинг 40 ИИ-моделей: God Mode vs Flash Mode

Недавний бенчмаркинг 40 новых AI-моделей выявляет значительные изменения в балансе цены и производительности. Сосредоточив внимание на Kimi k2.5 и Claude Opus 4.6, анализ демонстрирует разделение на два экстремума: 'God Mode' и 'Flash Mode', что делает модели среднего уровня неэффективными.

Ключевые детали

Ситуация с Kimi k2.5: Попытки провести бенчмаркинг Kimi k2.5 оказались безуспешными из-за постоянных ошибок 'No Content', вероятно, из-за перегрузки. Тем не менее, Kimi-k2-Thinking показал удовлетворительные результаты для сложных задач рассуждения с ~15 TPS.
доминирование скорости: Для приложений с чувствительностью к задержке модель Liquid LFM 2.5 оказалась самой быстрой, достигая ~359 токенов в секунду, за ней следует Ministral 3B с ~293 токенами в секунду.
Экономическая эффективность: Ministral 3B выделяется как наиболее экономически эффективное решение, costing $0.10/1M входных токенов. Он ~17x дешевле и ~40% быстрее, чем GPT-5.2 Codex, что делает его выгодным вариантом по сравнению с более дорогими предложениями.

Рекомендуется избегать моделей среднего уровня стоимостью от $0.50 до $1.00, так как они не предлагают конкурентоспособной производительности. В зависимости от ваших потребностей, выбирайте модели более высокого ценового сегмента, такие как Opus/GPT-5 для интеллекта, или выбирайте экономичную скорость с Liquid/Mistral.

📖 Читать полный источник: r/LocalLLaMA

Бенчмаркинг последних ИИ-моделей: Восхождение экстремальных моделей

Ключевые детали

👀 Смотрите также

Claude Code v2.1.162: информация об ожидании сессии, исправление тайм-аута MCP и обновление просмотра агентов

Пользователи сообщают о регрессе Claude Opus 4.7 в рассуждении и разговоре

YC-Bench тестирует LLM в роли CEO стартапов, GLM-5 демонстрирует высокую рентабельность

完全转型为AI工程师：不再接触代码