Бенчмаркинг последних ИИ-моделей: Восхождение экстремальных моделей

✍️ OpenClawRadar📅 Опубликовано: 13 февраля 2026 г.🔗 Source
Бенчмаркинг последних ИИ-моделей: Восхождение экстремальных моделей
Ad

Недавний бенчмаркинг 40 новых AI-моделей выявляет значительные изменения в балансе цены и производительности. Сосредоточив внимание на Kimi k2.5 и Claude Opus 4.6, анализ демонстрирует разделение на два экстремума: 'God Mode' и 'Flash Mode', что делает модели среднего уровня неэффективными.

Ad

Ключевые детали

  • Ситуация с Kimi k2.5: Попытки провести бенчмаркинг Kimi k2.5 оказались безуспешными из-за постоянных ошибок 'No Content', вероятно, из-за перегрузки. Тем не менее, Kimi-k2-Thinking показал удовлетворительные результаты для сложных задач рассуждения с ~15 TPS.
  • доминирование скорости: Для приложений с чувствительностью к задержке модель Liquid LFM 2.5 оказалась самой быстрой, достигая ~359 токенов в секунду, за ней следует Ministral 3B с ~293 токенами в секунду.
  • Экономическая эффективность: Ministral 3B выделяется как наиболее экономически эффективное решение, costing $0.10/1M входных токенов. Он ~17x дешевле и ~40% быстрее, чем GPT-5.2 Codex, что делает его выгодным вариантом по сравнению с более дорогими предложениями.

Рекомендуется избегать моделей среднего уровня стоимостью от $0.50 до $1.00, так как они не предлагают конкурентоспособной производительности. В зависимости от ваших потребностей, выбирайте модели более высокого ценового сегмента, такие как Opus/GPT-5 для интеллекта, или выбирайте экономичную скорость с Liquid/Mistral.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Исследование динамичного мира движущихся машин
Новости

Исследование динамичного мира движущихся машин

Узнайте, как агенты программирования на основе ИИ трансформируют отрасль в последней дискуссии из технологического сообщества. Узнайте точку зрения OpenClawRadar, поскольку мы подчеркиваем ключевые аспекты этой развивающейся технологии.

OpenClawRadar
Клод теряет возможность получать цены на товары у разных розничных продавцов
Новости

Клод теряет возможность получать цены на товары у разных розничных продавцов

По состоянию на 27 апреля Claude больше не возвращает цены на Amazon, Best Buy, Newegg или B&H Photo. Walmart остается единственным продавцом, который все еще показывает цены.

OpenClawRadar
Anthropic запускает Claude Code Channels для обмена сообщениями через Telegram или Discord
Новости

Anthropic запускает Claude Code Channels для обмена сообщениями через Telegram или Discord

Anthropic выпустила Claude Code Channels, позволяя разработчикам общаться со своими сессиями ИИ-кодирования из Telegram или Discord, сохраняя код локально.

OpenClawRadar
Клод 4.6 Opus способен воспроизвести list.h из Linux на основе минимальных входных данных
Новости

Клод 4.6 Opus способен воспроизвести list.h из Linux на основе минимальных входных данных

Пользователь продемонстрировал, что Claude 4.6 Opus может генерировать почти идентичную копию заголовочного файла list.h из Linux, получив первые 43 строки в качестве входных данных с температурой, установленной на 0, что поднимает вопросы о последствиях лицензирования GPL для моделей ИИ, обученных на открытом исходном коде.

OpenClawRadar