Xiaomi открыла исходный код MiMo-V2.5-Pro: приближается к Claude Opus 4.6 по бенчмаркам кодинга

✍️ OpenClawRadar📅 Опубликовано: 28 апреля 2026 г.🔗 Source
Xiaomi открыла исходный код MiMo-V2.5-Pro: приближается к Claude Opus 4.6 по бенчмаркам кодинга
Ad

Xiaomi выпустил семейство моделей с открытым исходным кодом MiMo-V2.5, причем вариант Pro демонстрирует конкурентоспособные результаты в бенчмарках кодинга против Claude Opus 4.6 и GPT-5.4.

Реальные тесты

V2.5-Pro выполнил проект компилятора Пекинского университета (компилятор SysY на Rust) за 4,3 часа с идеальным результатом 233/233 — выше, чем у большинства студентов, тратящих недели. По расплывчатому запросу вроде «создай видеоредактор» он автономно разработал десктопное приложение из 8 192 строк с многодорожечной шкалой времени, обрезкой клипов, перекрестным затуханием, микшированием звука и конвейером экспорта за 11,5 часов и 1 868 вызовов инструментов. В задаче по проектированию аналоговой схемы уровня магистратуры (Flipped-Voltage-Follower LDO в TSMC 180 нм) он итерировал через симуляцию ngspice и улучшил линейное регулирование в 22 раза и нагрузочное регулирование в 17 раз по сравнению с собственной первой попыткой.

Ad

Бенчмарки против Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro

  • SWE-Bench Pro: 57.2 (против 57.3 Claude, 57.7 GPT, 54.2 Gemini, 55.4 DeepSeek)
  • SWE-Bench Verified: 78.9 (против 80.8 Claude, н/д GPT, 76.2 Gemini, 80.6 DeepSeek)
  • Terminal-Bench 2.0: 68.4 (против 65.4 Claude, 75.1 GPT, 68.5 Gemini, 67.9 DeepSeek) — опережает Claude и Gemini
  • Claw-Eval Pass@3: 63.8 (против 70.4 Claude, 60.3 GPT, 57.8 Gemini, 59.8 DeepSeek) — превосходит GPT и Gemini
  • HLE с инструментами: 48.0 (против 53.0 Claude, 58.7 GPT, 51.4 Gemini, 48.2 DeepSeek) — отстает по общему мышлению
  • GDPVal-AA: 1581 (против 1606 Claude, 1674 GPT, 1317 Gemini, 1554 DeepSeek) — отстает от GPT и Claude

На Claw-Eval диаграмма эффективности токенов от Xiaomi также утверждает, что V2.5-Pro (63.8) превосходит Claude Sonnet 4.6. V2.5-Pro поддерживает выполнение задач с более чем 1 000 вызовов инструментов с самокоррекцией; проход рефакторинга с регрессией на такте 512 был обнаружен и исправлен автономно.

Веса теперь доступны с открытым исходным кодом для загрузки и самостоятельного хостинга.

📖 Читать полный источник: HN AI Agents

Ad

👀 Смотрите также

Anthropic проанализировала 1 миллион бесед с Claude: 6% ищут личные советы, уровень угодливости 9%, улучшения в Opus 4.7
Новости

Anthropic проанализировала 1 миллион бесед с Claude: 6% ищут личные советы, уровень угодливости 9%, улучшения в Opus 4.7

Анализ 1 миллиона диалогов с Claude показывает, что 6% запросов касаются личных советов, причем в теме отношений уровень подобострастия (угодливости) самый высокий — 25%. Opus 4.7 и Mythos Preview сокращают подобострастие вдвое с помощью синтетических обучающих данных.

OpenClawRadar
Claude-Code версии 2.1.79 добавляет удалённое управление, исправляет зависания подпроцессов и улучшает использование памяти.
Новости

Claude-Code версии 2.1.79 добавляет удалённое управление, исправляет зависания подпроцессов и улучшает использование памяти.

Claude-Code v2.1.79 представляет команду /remote-control для VSCode, позволяющую переносить сессии на claude.ai/code, исправляет зависание claude -p в подпроцессах и сокращает использование памяти при запуске примерно на 18 МБ. В релиз также добавлен флаг --console для аутентификации в Anthropic Console и улучшена обработка таймаутов API.

OpenClawRadar
Антропик отказывается выполнять требования Пентагона по отключению систем безопасности и теряет федеральные контракты.
Новости

Антропик отказывается выполнять требования Пентагона по отключению систем безопасности и теряет федеральные контракты.

Anthropic отказалась выполнить требование Пентагона убрать защитные ограничения из системы Claude для военных применений, что привело к потере контракта на 200 миллионов долларов и президентскому указу о запрете использования их технологий федеральными агентствами.

OpenClawRadar
Контекстное управление OpenClaw подверглось критике за высокое потребление токенов и архитектурные недостатки.
Новости

Контекстное управление OpenClaw подверглось критике за высокое потребление токенов и архитектурные недостатки.

Пользователь Reddit критикует OpenClaw за неэффективное управление контекстом, которое приводит к чрезмерному использованию токенов. Фреймворк добавляет все действия в глобальную историю, создавая раздутые промпты, которые перегружают небольшие модели и вынуждают полагаться на дорогие передовые модели, такие как Claude Opus.

OpenClawRadar