MiMo-V2.5-Pro бенчмарк: сильное социально-дедуктивное рассуждение, хорошее соотношение цена/качество по сравнению с K2.6

MiMo-V2.5-Pro, последняя модель Xiaomi с открытыми весами, прошла бенчмаркинг в автономных играх Blood on the Clocktower — сложной социальной дедуктивной игры, похожей на Мафию/Оборотней. Бенчмарк, созданный пользователем Reddit cjami, сталкивает модели друг против друга в полных играх, оценивая рассуждение, обман и использование инструментов.
Ключевые результаты
- Процент побед: 88% за команду Добра, 48% за команду Зла — в целом высокий, но однобокий. Игра за Зло — основная слабость по сравнению с Kimi K2.6.
- Эффективность токенов: 183 639 выходных токенов на игру, аналогично Gemini 3.1 Pro. Сравните с Kimi K2.6: 580 000 токенов (в 3 раза длиннее).
- Стоимость за игру: $0.99 — менее половины стоимости Kimi K2.6 ($2.65) и значительно ниже Claude Opus 4.6 ($3.76).
- Длительность матча: 2-3 часа (против 10-15 часов у Kimi K2.6 из-за многословных рассуждений).
- Частота ошибок вызова инструментов: 0.4% — надежно для автономных агентских рабочих процессов.
Примечательная производительность
Сильные рассуждения в условиях неопределенности: пример мышления с точки зрения других против GPT 5.5 и чистые дедукции, выигравшие игру.
Примечательные ошибки
- Ожидалось, что злой Барон самораскроется, что привело к проигрышу — против Claude Opus 4.6.
- Минион признался в своей роли — транскрипт.
Практический вывод
Для разработчиков, которым нужна модель с открытыми весами и сильными рассуждениями в мультиагентных или теоретико-игровых сценариях, MiMo-V2.5-Pro предлагает наилучшее соотношение цены и качества среди топ-моделей — более низкая стоимость, более быстрый вывод и разумная надежность, хотя есть возможности для улучшения в состязательных ролях.
Полные транскрипты и логи игр: MiMo-V2.5-Pro на Clocktower Radio. Методология: Как это работает.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Claude Code v2.1.183: Безопасный авторежим, исправления TUI и блокировка деструктивных команд Git
Claude Code v2.1.183 блокирует опасные команды git в автоматическом режиме, если вы явно не попросите, добавляет предупреждения об устаревании моделей, исправляет повреждение TUI в Windows Terminal и многое другое.

Автоматизация социальных сетей с OpenClaw: возможности и обсуждения
Обсуждение на Reddit поднимает вопрос об автоматизации задач на социальных платформах, таких как Instagram и TikTok, с использованием OpenClaw.

Район Лунган в Шэньчжэне предлагает субсидии OpenClaw для стартапов в области AI-агентов
Район Лунган в Шэньчжэне опубликовал проект политического документа, предлагающий субсидии и поддержку специально для развития экосистемы OpenClaw и стартапов OPC, с целью стать мировым центром предпринимательства в области ИИ-агентов.

Правоохранительные органы США объявляют 'антитехнический экстремизм' новой категорией угроз на фоне негативной реакции на ИИ
DHS, ФБР и центры анализа угроз следят за «антитехнологическим насильственным экстремизмом» — новой категорией, нацеленной на протесты, угрозы дата-центрам и инакомыслие по поводу ИИ в рамках указов Трампа.