MiMo-V2.5-Pro бенчмарк: сильное социально-дедуктивное рассуждение, хорошее соотношение цена/качество по сравнению с K2.6

✍️ OpenClawRadar📅 Опубликовано: 1 мая 2026 г.🔗 Source
MiMo-V2.5-Pro бенчмарк: сильное социально-дедуктивное рассуждение, хорошее соотношение цена/качество по сравнению с K2.6
Ad

MiMo-V2.5-Pro, последняя модель Xiaomi с открытыми весами, прошла бенчмаркинг в автономных играх Blood on the Clocktower — сложной социальной дедуктивной игры, похожей на Мафию/Оборотней. Бенчмарк, созданный пользователем Reddit cjami, сталкивает модели друг против друга в полных играх, оценивая рассуждение, обман и использование инструментов.

Ключевые результаты

  • Процент побед: 88% за команду Добра, 48% за команду Зла — в целом высокий, но однобокий. Игра за Зло — основная слабость по сравнению с Kimi K2.6.
  • Эффективность токенов: 183 639 выходных токенов на игру, аналогично Gemini 3.1 Pro. Сравните с Kimi K2.6: 580 000 токенов (в 3 раза длиннее).
  • Стоимость за игру: $0.99 — менее половины стоимости Kimi K2.6 ($2.65) и значительно ниже Claude Opus 4.6 ($3.76).
  • Длительность матча: 2-3 часа (против 10-15 часов у Kimi K2.6 из-за многословных рассуждений).
  • Частота ошибок вызова инструментов: 0.4% — надежно для автономных агентских рабочих процессов.

Примечательная производительность

Сильные рассуждения в условиях неопределенности: пример мышления с точки зрения других против GPT 5.5 и чистые дедукции, выигравшие игру.

Ad

Примечательные ошибки

Практический вывод

Для разработчиков, которым нужна модель с открытыми весами и сильными рассуждениями в мультиагентных или теоретико-игровых сценариях, MiMo-V2.5-Pro предлагает наилучшее соотношение цены и качества среди топ-моделей — более низкая стоимость, более быстрый вывод и разумная надежность, хотя есть возможности для улучшения в состязательных ролях.

Полные транскрипты и логи игр: MiMo-V2.5-Pro на Clocktower Radio. Методология: Как это работает.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Claude Code v2.1.183: Безопасный авторежим, исправления TUI и блокировка деструктивных команд Git
Новости

Claude Code v2.1.183: Безопасный авторежим, исправления TUI и блокировка деструктивных команд Git

Claude Code v2.1.183 блокирует опасные команды git в автоматическом режиме, если вы явно не попросите, добавляет предупреждения об устаревании моделей, исправляет повреждение TUI в Windows Terminal и многое другое.

OpenClawRadar
Автоматизация социальных сетей с OpenClaw: возможности и обсуждения
Новости

Автоматизация социальных сетей с OpenClaw: возможности и обсуждения

Обсуждение на Reddit поднимает вопрос об автоматизации задач на социальных платформах, таких как Instagram и TikTok, с использованием OpenClaw.

OpenClawRadar
Район Лунган в Шэньчжэне предлагает субсидии OpenClaw для стартапов в области AI-агентов
Новости

Район Лунган в Шэньчжэне предлагает субсидии OpenClaw для стартапов в области AI-агентов

Район Лунган в Шэньчжэне опубликовал проект политического документа, предлагающий субсидии и поддержку специально для развития экосистемы OpenClaw и стартапов OPC, с целью стать мировым центром предпринимательства в области ИИ-агентов.

OpenClawRadar
Правоохранительные органы США объявляют 'антитехнический экстремизм' новой категорией угроз на фоне негативной реакции на ИИ
Новости

Правоохранительные органы США объявляют 'антитехнический экстремизм' новой категорией угроз на фоне негативной реакции на ИИ

DHS, ФБР и центры анализа угроз следят за «антитехнологическим насильственным экстремизмом» — новой категорией, нацеленной на протесты, угрозы дата-центрам и инакомыслие по поводу ИИ в рамках указов Трампа.

OpenClawRadar