MiMo-V2.5-Pro vs K2.6: 88% победы за Добро, цена $0.99

MiMo-V2.5-Pro, последняя модель Xiaomi с открытыми весами, прошла бенчмаркинг в автономных играх Blood on the Clocktower — сложной социальной дедуктивной игры, похожей на Мафию/Оборотней. Бенчмарк, созданный пользователем Reddit cjami, сталкивает модели друг против друга в полных играх, оценивая рассуждение, обман и использование инструментов.

Ключевые результаты

Процент побед: 88% за команду Добра, 48% за команду Зла — в целом высокий, но однобокий. Игра за Зло — основная слабость по сравнению с Kimi K2.6.
Эффективность токенов: 183 639 выходных токенов на игру, аналогично Gemini 3.1 Pro. Сравните с Kimi K2.6: 580 000 токенов (в 3 раза длиннее).
Стоимость за игру: $0.99 — менее половины стоимости Kimi K2.6 ($2.65) и значительно ниже Claude Opus 4.6 ($3.76).
Длительность матча: 2-3 часа (против 10-15 часов у Kimi K2.6 из-за многословных рассуждений).
Частота ошибок вызова инструментов: 0.4% — надежно для автономных агентских рабочих процессов.

Примечательная производительность

Сильные рассуждения в условиях неопределенности: пример мышления с точки зрения других против GPT 5.5 и чистые дедукции, выигравшие игру.

Примечательные ошибки

Ожидалось, что злой Барон самораскроется, что привело к проигрышу — против Claude Opus 4.6.
Минион признался в своей роли — транскрипт.

Практический вывод

Для разработчиков, которым нужна модель с открытыми весами и сильными рассуждениями в мультиагентных или теоретико-игровых сценариях, MiMo-V2.5-Pro предлагает наилучшее соотношение цены и качества среди топ-моделей — более низкая стоимость, более быстрый вывод и разумная надежность, хотя есть возможности для улучшения в состязательных ролях.

Полные транскрипты и логи игр: MiMo-V2.5-Pro на Clocktower Radio. Методология: Как это работает.

📖 Читать полный источник: r/LocalLLaMA