Результаты AIME 2026: открытые и закрытые модели набирают выше 90%

Результаты AIME 2026 (Американский пригласительный математический экзамен) опубликованы, и как закрытые, так и открытые модели ИИ теперь набирают более 90% на этом сложном эталоне математического мышления.
Ключевые моменты
- Как проприетарные (закрытые), так и открытые модели превышают 90% точности
- DeepSeek V3.2 может пройти весь тест примерно за bash.09 в затратах на API
- Это представляет собой значительный этап в возможностях математического мышления
Что это означает
AIME традиционно является одним из самых сложных математических соревнований для старшеклассников, включающим задачи, требующие сложного математического мышления. Модели ИИ, достигающие точности более 90%, демонстрируют замечательный прогресс в сложных способностях рассуждения.
Экономическая эффективность
Тот факт, что DeepSeek V3.2 может достигать конкурентоспособных результатов всего за bash.09 за весь тест, подчеркивает быстрое снижение стоимости передовых возможностей ИИ, делая сложное мышление более доступным.
Почему это важно
Достижение более 90% точности как закрытыми, так и открытыми моделями ИИ знаменует собой ключевой момент в эволюции технологий ИИ. Это демонстрирует потенциал ИИ помогать не только в образовательных контекстах, но и в реальных приложениях, где требуется сложное решение задач. Этот прогресс может стимулировать дальнейшие инвестиции и развитие систем ИИ, особенно в областях, требующих высокоуровневых когнитивных функций.
Ключевые выводы
- Производительность моделей ИИ в AIME 2026 указывает на скачок в их возможностях математического мышления.
- Как проприетарные, так и открытые модели достигают схожих уровней точности, способствуя здоровой конкуренции и инновациям в области ИИ.
- Экономически эффективные решения, такие как DeepSeek V3.2, делают передовые инструменты ИИ более доступными для широкой аудитории.
- Этот прогресс может вдохновить образовательные учреждения интегрировать инструменты ИИ в свои учебные планы, улучшая учебный процесс.
Как начать
Для тех, кто заинтересован в использовании ИИ для математического мышления или других сложных задач, начать с инструментов, таких как DeepSeek V3.2, довольно просто. Пользователи могут зарегистрироваться для получения API-ключа на сайте DeepSeek, что позволит им получить доступ к возможностям модели. После регистрации разработчики могут интегрировать API в свои приложения или использовать его для личных проектов, что позволяет экспериментировать с решением задач на основе ИИ.
Полные результаты: matharena.ai
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Заголовок статьи: libibverbs от Apple скрывает символы GPUDirect RDMA; Zero-Copy Metal Buffer RDMA работает на macOS
Разработчик обнаружил, что подсистема RDMA от Apple принимает буферы Metal GPU для передачи данных по сети с нулевым копированием, и нашел скрытые символы ibv_reg_dmabuf_mr, что позволяет предположить возможность GPUDirect RDMA на macOS без модификации ядра.

Пользователи сообщают, что Sonnet 4.6 превосходит Opus 4.6 в практических задачах программирования.
Разработчик, тестировавший модели Claude AI, обнаружил, что Opus 4.6 создавал излишне сложные решения с проблемами производительности, в то время как Sonnet 4.6 предлагал более тщательные и эффективные исправления с меньшим использованием токенов.

Снижение соответствия системному промпту Claude в длинных беседах
Агенты на основе Claude демонстрируют снижение соблюдения системных промптов после 40-50 сообщений, игнорируя правила форматирования и забывая ограничения. Проблема возникает из-за конкуренции системных промптов с историей диалога за внимание в контекстном окне.

Обновление APEX MoE Quants: выпущено 25+ новых моделей и уровень I-Nano
APEX — MoE-адаптивная смешанная точность квантизации — теперь охватывает более 30 моделей из семейств Qwen, Mistral, Gemma и гибридных SSM, а также новое поколение I-Nano, достигающее 2,06 бит на параметр для экспертов средних слоёв.