Kimi K2.6 с агрессивной скользящей стратегией превосходит Claude, GPT-5.5 и Gemini в соревновании по программированию

✍️ OpenClawRadar📅 Опубликовано: 3 мая 2026 г.🔗 Source

Kimi K2.6 побеждает в бенчмарке Word Gem Puzzle

Модель с открытыми весами Kimi K2.6 от Moonshot AI обошла все западные frontier-модели в головоломке Day 12 Word Gem Puzzle — игре в реальном времени с буквенными плитками, которые нужно перемещать. Девять моделей соревновались после того, как Nemotron Super 3 от Nvidia не смогла подключиться из-за синтаксической ошибки.

Итоговые позиции

1-е место: Kimi K2.6 — 22 матч-пойнта (7-1-0)
2-е место: MiMo V2-Pro — 20 очков (6-2-0)
3-е место: ChatGPT GPT-5.5 — 16 очков (5-1-2)
4-е место: GLM 5.1 (Zhipu AI) — 15 очков
5-е место: Claude Opus 4.7 — 12 очков
6-е место: Gemini Pro 3.1 — 9 очков
7-е место: Grok Expert 4.2 — 9 очков
8-е место: DeepSeek V4 — 3 очка
9-е место: Muse Spark — 0 очков

Как работает головоломка

Доска представляет собой прямоугольную сетку (от 10×10 до 30×30), заполненную буквенными плитками и одним пустым местом. Боты перемещают соседние плитки в пустое место и составляют допустимые английские слова по прямым горизонтальным или вертикальным линиям. Диагонали и обратный порядок не учитываются. Подсчет очков: слова короче 7 букв стоят очков (5 букв: -1, 3 буквы: -3). Слова длиной 7+ букв приносят длина - 6 (8 букв: +2). Каждое слово можно составить только один раз. Сетки изначально заполняются словарными словами в виде кроссворда, остальные ячейки заполняются буквами с весами Scrabble, затем перемешиваются (более агрессивно на больших досках). На доске 30×30 почти все исходные слова разбиты.

Победная стратегия Kimi

Kimi использовала жадный подход: оценивала каждый возможный ход по тому, какие новые положительные слова он открывает, выполняла лучший и повторяла. Когда ни один ход не открывал положительное слово, она переходила к первому допустимому направлению в алфавитном порядке. Это приводило к неэффективным колебаниям у краев на маленьких сетках, но окупалось на 30×30, где требовалось восстановление. Совокупный счет Kimi составил 77 — самый высокий на турнире.

Почему другие модели испытывали трудности

MiMo V2-Pro фактически никогда не перемещала плитки — ее порог «лучшее значение > 0» никогда не срабатывал, поэтому она сканировала исходную сетку на предмет слов длиной 7+ букв и объявляла их все в одном TCP-пакете. Она показывала хорошие результаты на досках с целыми исходными словами, но нулевые на перемешанных (итого: 43 совокупных очка). Claude также не перемещала плитки, хорошо держалась на 25×25, но провалилась на 30×30. GPT-5.5 была консервативна (~120 перемещений за раунд) и показала лучшие результаты на 15×15 и 30×30. GLM была самым агрессивным слайдером в целом (>800 000 перемещений). Grok никогда не двигала плитки, но неплохо набирала очки на больших досках.

Ключевой вывод

Это не просто противостояние Востока и Запада — две конкретные китайские модели показали лучшие результаты, используя совершенно разные стратегии. Kimi имеет открытые веса и публично доступна от Moonshot AI (основана в 2023). MiMo V2-Pro доступна только через API; Xiaomi подтвердила, что веса V2.5 Pro скоро будут опубликованы.

📖 Прочитать полный источник: HN AI Agents

👀 Смотрите также

Новости

Claude Code v2.1.169: Безопасный режим, команда /cd и десятки исправлений ошибок

В версии v2.1.169 добавлены --safe-mode для отключения всех настроек при диагностике, команда /cd для смены директории без потери кеша, а также исправлены задержка UI ~30-50 мс, зависания на Windows и пробелы в политиках MCP для предприятий.

9 июн. 2026 г., 00:17 UTC

OpenClawRadar

Новости

Claude Code v2.1.162: информация об ожидании сессии, исправление тайм-аута MCP и обновление просмотра агентов

Claude Code v2.1.162 добавляет поле waitingFor в вывод --json, исправляет ошибку таймаута MCP менее 1000 мс, улучшает отрисовку терминала для представления агентов и многое другое. Подробности внутри.

4 июн. 2026 г., 00:16 UTC

OpenClawRadar

Новости

Исследования показывают, что личностные характеристики влияют на способность Claude к самокоррекции, но не оказывают такого же эффекта на Llama или Qwen.

Исследователь провел 23 эксперимента, тестируя самокоррекцию без ограничений на моделях Claude, Llama и Qwen. Основной вывод: профили личности влияют на способность Claude к самокоррекции — высокая прямолинейность выявляет все ошибки, а низкая — ни одной. Llama и Qwen не осуществляли самокоррекцию даже при идентичных промптах.

15 апр. 2026 г., 07:45 UTC

OpenClawRadar

Новости

NVIDIA анонсирует NemoClaw с функциями безопасности OpenShell.

NVIDIA анонсировала NemoClaw на GTC, развивая OpenClaw для добавления корпоративной безопасности через OpenShell, который обеспечивает политики конфиденциальности и защитные механизмы для ИИ-агентов.

17 мар. 2026 г., 09:45 UTC

OpenClawRadar