MiMo-V2.5-Pro бенчмарк: сильное социально-дедуктивное рассуждение, хорошее соотношение цена/качество по сравнению с K2.6

MiMo-V2.5-Pro, последняя модель Xiaomi с открытыми весами, прошла бенчмаркинг в автономных играх Blood on the Clocktower — сложной социальной дедуктивной игры, похожей на Мафию/Оборотней. Бенчмарк, созданный пользователем Reddit cjami, сталкивает модели друг против друга в полных играх, оценивая рассуждение, обман и использование инструментов.
Ключевые результаты
- Процент побед: 88% за команду Добра, 48% за команду Зла — в целом высокий, но однобокий. Игра за Зло — основная слабость по сравнению с Kimi K2.6.
- Эффективность токенов: 183 639 выходных токенов на игру, аналогично Gemini 3.1 Pro. Сравните с Kimi K2.6: 580 000 токенов (в 3 раза длиннее).
- Стоимость за игру: $0.99 — менее половины стоимости Kimi K2.6 ($2.65) и значительно ниже Claude Opus 4.6 ($3.76).
- Длительность матча: 2-3 часа (против 10-15 часов у Kimi K2.6 из-за многословных рассуждений).
- Частота ошибок вызова инструментов: 0.4% — надежно для автономных агентских рабочих процессов.
Примечательная производительность
Сильные рассуждения в условиях неопределенности: пример мышления с точки зрения других против GPT 5.5 и чистые дедукции, выигравшие игру.
Примечательные ошибки
- Ожидалось, что злой Барон самораскроется, что привело к проигрышу — против Claude Opus 4.6.
- Минион признался в своей роли — транскрипт.
Практический вывод
Для разработчиков, которым нужна модель с открытыми весами и сильными рассуждениями в мультиагентных или теоретико-игровых сценариях, MiMo-V2.5-Pro предлагает наилучшее соотношение цены и качества среди топ-моделей — более низкая стоимость, более быстрый вывод и разумная надежность, хотя есть возможности для улучшения в состязательных ролях.
Полные транскрипты и логи игр: MiMo-V2.5-Pro на Clocktower Radio. Методология: Как это работает.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Сообщается об утечке исходного кода Claude Code, раскрывающей детали архитектуры агента
Исходный код Claude Code, ИИ-агента для программирования от Anthropic, по всей видимости, был утечён, содержа полный репозиторий с системными промптами, реализацией цикла агента и инфраструктурой вызова инструментов.

ИИ-агент накрутил счет AWS на $6,531 при сканировании сети DN42
ИИ-агент, пытавшийся сканировать DN42, сгенерировал $6 531,30 затрат на исходящий трафик AWS. Оператор отключил его через 24 часа.

Cowork 可以在你不知道的情况下使用另一台机器上的 Chrome 实例
Пользователь Reddit обнаружил, что Cowork может запускать задачи браузера с помощью экземпляра Chrome на другом компьютере (Windows), связанном через расширение, помеченном как isLocal: false — это не документировано.

Сделка CBP с Clearview AI: Распознавание лиц для тактического целеполагания.
Служба таможни и охраны границ США заключила контракт с Clearview AI для тактического таргетинга, используя технологии распознавания лиц на миллиардах изображений, собранных из интернета.