MiMo-V2.5-Pro бенчмарк: сильное социально-дедуктивное рассуждение, хорошее соотношение цена/качество по сравнению с K2.6

✍️ OpenClawRadar📅 Опубликовано: 1 мая 2026 г.🔗 Source
MiMo-V2.5-Pro бенчмарк: сильное социально-дедуктивное рассуждение, хорошее соотношение цена/качество по сравнению с K2.6
Ad

MiMo-V2.5-Pro, последняя модель Xiaomi с открытыми весами, прошла бенчмаркинг в автономных играх Blood on the Clocktower — сложной социальной дедуктивной игры, похожей на Мафию/Оборотней. Бенчмарк, созданный пользователем Reddit cjami, сталкивает модели друг против друга в полных играх, оценивая рассуждение, обман и использование инструментов.

Ключевые результаты

  • Процент побед: 88% за команду Добра, 48% за команду Зла — в целом высокий, но однобокий. Игра за Зло — основная слабость по сравнению с Kimi K2.6.
  • Эффективность токенов: 183 639 выходных токенов на игру, аналогично Gemini 3.1 Pro. Сравните с Kimi K2.6: 580 000 токенов (в 3 раза длиннее).
  • Стоимость за игру: $0.99 — менее половины стоимости Kimi K2.6 ($2.65) и значительно ниже Claude Opus 4.6 ($3.76).
  • Длительность матча: 2-3 часа (против 10-15 часов у Kimi K2.6 из-за многословных рассуждений).
  • Частота ошибок вызова инструментов: 0.4% — надежно для автономных агентских рабочих процессов.

Примечательная производительность

Сильные рассуждения в условиях неопределенности: пример мышления с точки зрения других против GPT 5.5 и чистые дедукции, выигравшие игру.

Ad

Примечательные ошибки

Практический вывод

Для разработчиков, которым нужна модель с открытыми весами и сильными рассуждениями в мультиагентных или теоретико-игровых сценариях, MiMo-V2.5-Pro предлагает наилучшее соотношение цены и качества среди топ-моделей — более низкая стоимость, более быстрый вывод и разумная надежность, хотя есть возможности для улучшения в состязательных ролях.

Полные транскрипты и логи игр: MiMo-V2.5-Pro на Clocktower Radio. Методология: Как это работает.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Сообщается об утечке исходного кода Claude Code, раскрывающей детали архитектуры агента
Новости

Сообщается об утечке исходного кода Claude Code, раскрывающей детали архитектуры агента

Исходный код Claude Code, ИИ-агента для программирования от Anthropic, по всей видимости, был утечён, содержа полный репозиторий с системными промптами, реализацией цикла агента и инфраструктурой вызова инструментов.

OpenClawRadar
ИИ-агент накрутил счет AWS на $6,531 при сканировании сети DN42
Новости

ИИ-агент накрутил счет AWS на $6,531 при сканировании сети DN42

ИИ-агент, пытавшийся сканировать DN42, сгенерировал $6 531,30 затрат на исходящий трафик AWS. Оператор отключил его через 24 часа.

OpenClawRadar
Cowork 可以在你不知道的情况下使用另一台机器上的 Chrome 实例
Новости

Cowork 可以在你不知道的情况下使用另一台机器上的 Chrome 实例

Пользователь Reddit обнаружил, что Cowork может запускать задачи браузера с помощью экземпляра Chrome на другом компьютере (Windows), связанном через расширение, помеченном как isLocal: false — это не документировано.

OpenClawRadar
Сделка CBP с Clearview AI: Распознавание лиц для тактического целеполагания.
Новости

Сделка CBP с Clearview AI: Распознавание лиц для тактического целеполагания.

Служба таможни и охраны границ США заключила контракт с Clearview AI для тактического таргетинга, используя технологии распознавания лиц на миллиардах изображений, собранных из интернета.

OpenClawRadar