Kimi K2.6 с агрессивной скользящей стратегией превосходит Claude, GPT-5.5 и Gemini в соревновании по программированию

Kimi K2.6 побеждает в бенчмарке Word Gem Puzzle
Модель с открытыми весами Kimi K2.6 от Moonshot AI обошла все западные frontier-модели в головоломке Day 12 Word Gem Puzzle — игре в реальном времени с буквенными плитками, которые нужно перемещать. Девять моделей соревновались после того, как Nemotron Super 3 от Nvidia не смогла подключиться из-за синтаксической ошибки.
Итоговые позиции
- 1-е место: Kimi K2.6 — 22 матч-пойнта (7-1-0)
- 2-е место: MiMo V2-Pro — 20 очков (6-2-0)
- 3-е место: ChatGPT GPT-5.5 — 16 очков (5-1-2)
- 4-е место: GLM 5.1 (Zhipu AI) — 15 очков
- 5-е место: Claude Opus 4.7 — 12 очков
- 6-е место: Gemini Pro 3.1 — 9 очков
- 7-е место: Grok Expert 4.2 — 9 очков
- 8-е место: DeepSeek V4 — 3 очка
- 9-е место: Muse Spark — 0 очков
Как работает головоломка
Доска представляет собой прямоугольную сетку (от 10×10 до 30×30), заполненную буквенными плитками и одним пустым местом. Боты перемещают соседние плитки в пустое место и составляют допустимые английские слова по прямым горизонтальным или вертикальным линиям. Диагонали и обратный порядок не учитываются. Подсчет очков: слова короче 7 букв стоят очков (5 букв: -1, 3 буквы: -3). Слова длиной 7+ букв приносят длина - 6 (8 букв: +2). Каждое слово можно составить только один раз. Сетки изначально заполняются словарными словами в виде кроссворда, остальные ячейки заполняются буквами с весами Scrabble, затем перемешиваются (более агрессивно на больших досках). На доске 30×30 почти все исходные слова разбиты.
Победная стратегия Kimi
Kimi использовала жадный подход: оценивала каждый возможный ход по тому, какие новые положительные слова он открывает, выполняла лучший и повторяла. Когда ни один ход не открывал положительное слово, она переходила к первому допустимому направлению в алфавитном порядке. Это приводило к неэффективным колебаниям у краев на маленьких сетках, но окупалось на 30×30, где требовалось восстановление. Совокупный счет Kimi составил 77 — самый высокий на турнире.
Почему другие модели испытывали трудности
MiMo V2-Pro фактически никогда не перемещала плитки — ее порог «лучшее значение > 0» никогда не срабатывал, поэтому она сканировала исходную сетку на предмет слов длиной 7+ букв и объявляла их все в одном TCP-пакете. Она показывала хорошие результаты на досках с целыми исходными словами, но нулевые на перемешанных (итого: 43 совокупных очка). Claude также не перемещала плитки, хорошо держалась на 25×25, но провалилась на 30×30. GPT-5.5 была консервативна (~120 перемещений за раунд) и показала лучшие результаты на 15×15 и 30×30. GLM была самым агрессивным слайдером в целом (>800 000 перемещений). Grok никогда не двигала плитки, но неплохо набирала очки на больших досках.
Ключевой вывод
Это не просто противостояние Востока и Запада — две конкретные китайские модели показали лучшие результаты, используя совершенно разные стратегии. Kimi имеет открытые веса и публично доступна от Moonshot AI (основана в 2023). MiMo V2-Pro доступна только через API; Xiaomi подтвердила, что веса V2.5 Pro скоро будут опубликованы.
📖 Прочитать полный источник: HN AI Agents
👀 Смотрите также

Claude Code v2.1.169: Безопасный режим, команда /cd и десятки исправлений ошибок
В версии v2.1.169 добавлены --safe-mode для отключения всех настроек при диагностике, команда /cd для смены директории без потери кеша, а также исправлены задержка UI ~30-50 мс, зависания на Windows и пробелы в политиках MCP для предприятий.

Claude Code v2.1.162: информация об ожидании сессии, исправление тайм-аута MCP и обновление просмотра агентов
Claude Code v2.1.162 добавляет поле waitingFor в вывод --json, исправляет ошибку таймаута MCP менее 1000 мс, улучшает отрисовку терминала для представления агентов и многое другое. Подробности внутри.

Исследования показывают, что личностные характеристики влияют на способность Claude к самокоррекции, но не оказывают такого же эффекта на Llama или Qwen.
Исследователь провел 23 эксперимента, тестируя самокоррекцию без ограничений на моделях Claude, Llama и Qwen. Основной вывод: профили личности влияют на способность Claude к самокоррекции — высокая прямолинейность выявляет все ошибки, а низкая — ни одной. Llama и Qwen не осуществляли самокоррекцию даже при идентичных промптах.

NVIDIA анонсирует NemoClaw с функциями безопасности OpenShell.
NVIDIA анонсировала NemoClaw на GTC, развивая OpenClaw для добавления корпоративной безопасности через OpenShell, который обеспечивает политики конфиденциальности и защитные механизмы для ИИ-агентов.