Бенчмаркинг последних ИИ-моделей: Восхождение экстремальных моделей

Недавний бенчмаркинг 40 новых AI-моделей выявляет значительные изменения в балансе цены и производительности. Сосредоточив внимание на Kimi k2.5 и Claude Opus 4.6, анализ демонстрирует разделение на два экстремума: 'God Mode' и 'Flash Mode', что делает модели среднего уровня неэффективными.
Ключевые детали
- Ситуация с Kimi k2.5: Попытки провести бенчмаркинг Kimi k2.5 оказались безуспешными из-за постоянных ошибок 'No Content', вероятно, из-за перегрузки. Тем не менее, Kimi-k2-Thinking показал удовлетворительные результаты для сложных задач рассуждения с ~15 TPS.
- доминирование скорости: Для приложений с чувствительностью к задержке модель Liquid LFM 2.5 оказалась самой быстрой, достигая ~359 токенов в секунду, за ней следует Ministral 3B с ~293 токенами в секунду.
- Экономическая эффективность: Ministral 3B выделяется как наиболее экономически эффективное решение, costing $0.10/1M входных токенов. Он ~17x дешевле и ~40% быстрее, чем GPT-5.2 Codex, что делает его выгодным вариантом по сравнению с более дорогими предложениями.
Рекомендуется избегать моделей среднего уровня стоимостью от $0.50 до $1.00, так как они не предлагают конкурентоспособной производительности. В зависимости от ваших потребностей, выбирайте модели более высокого ценового сегмента, такие как Opus/GPT-5 для интеллекта, или выбирайте экономичную скорость с Liquid/Mistral.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Исследование динамичного мира движущихся машин
Узнайте, как агенты программирования на основе ИИ трансформируют отрасль в последней дискуссии из технологического сообщества. Узнайте точку зрения OpenClawRadar, поскольку мы подчеркиваем ключевые аспекты этой развивающейся технологии.

Клод теряет возможность получать цены на товары у разных розничных продавцов
По состоянию на 27 апреля Claude больше не возвращает цены на Amazon, Best Buy, Newegg или B&H Photo. Walmart остается единственным продавцом, который все еще показывает цены.

Anthropic запускает Claude Code Channels для обмена сообщениями через Telegram или Discord
Anthropic выпустила Claude Code Channels, позволяя разработчикам общаться со своими сессиями ИИ-кодирования из Telegram или Discord, сохраняя код локально.

Клод 4.6 Opus способен воспроизвести list.h из Linux на основе минимальных входных данных
Пользователь продемонстрировал, что Claude 4.6 Opus может генерировать почти идентичную копию заголовочного файла list.h из Linux, получив первые 43 строки в качестве входных данных с температурой, установленной на 0, что поднимает вопросы о последствиях лицензирования GPL для моделей ИИ, обученных на открытом исходном коде.