Тест пространственного мышления LLM: бенчмарк Sokoban показывает лидерство ChatGPT, Qwen3.7-max и Gemini 3.5-thinking

Пользователь Reddit протестировал современные LLM на строгое 2D-пространственное мышление, используя собственную карту Sokoban. Модели должны были выдать правильную последовательность ходов без цепочки рассуждений — только сырые направления (UP, DOWN, LEFT, RIGHT) в одной строке. Никакого дополнительного форматирования.
Результаты: прошли только 3 модели
- Пройдено (правильное решение + идеальное форматирование): ChatGPT, Qwen3.7-max, Gemini 3.5-thinking
- Не пройдено (недопустимые ходы, тупики или ошибки форматирования): Gemini 3.5-flash, Gemini 3.1 Pro, Qwen3.7-plus (fast, thinking), Qwen3.6-plus, Qwen3.6-35B-A3B, GLM-5, Gemma4-26B-A4B
Модели Claude не тестировались из-за ограничений доступа к аккаунту.
Использованный промт
Вы можете воспроизвести тест с помощью этого промта (данные карты сокращены):
You are a perfect Sokoban automatic solver. Based on the standard XSB format character map provided below, calculate the sequence of moves required to push all boxes ($) to their respective goals (. or +).
Требование к формату вывода:
The final result [MUST ONLY] consist of a sequence of these four uppercase words: UP, DOWN, LEFT, RIGHT. All steps must be output on a single line, strictly separated by English commas (,). [DO NOT] include spaces and [DO NOT] include newlines.
Пример данных карты из бенчмарка:
[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]
Ключевые ограничения: без цепочки рассуждений, строгий формат вывода, избегание тупиков. Бенчмарк подчёркивает, что даже продвинутые открытые модели с трудом справляются с точным пространственным отслеживанием при ограничениях на вывод.
Для кого это
Разработчикам, оценивающим LLM для агентских задач, требующих пространственного мышления или строгого соблюдения формата вывода (например, решение игр, робототехника, планирование размещения).
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Claude предоставляет дополнительные кредиты на использование для планов Pro, Max и Team.
Claude предоставляет подписчикам планов Pro, Max и Team разовый дополнительный кредит на использование, равный стоимости их подписки. Кредит можно использовать в Claude, Claude Code, Claude Cowork и сторонних продуктах.

Политика Википедии в отношении ИИ: Запрет на использование LLM для создания статей, исключения для редактирования и перевода
Википедия запрещает использование LLM для создания или переписывания статей, за узкими исключениями для базовой корректуры и перевода. Нарушения могут привести к быстрому удалению (G15) и удалению AI-сгенерированных комментариев со страниц обсуждения.

Бенчмарки показывают, что дистиллированные модели соответствуют передовым LLM в структурированных задачах при 10-кратном снижении затрат.
Всестороннее сравнение небольших дистиллированных моделей Qwen3 (от 0,6B до 8B) с передовыми LLM показывает, что дистиллированные модели соответствуют или превосходят модели среднего уровня на 6 из 9 задач при значительно более низкой стоимости, при этом Text2SQL достигает точности 98,0% при $3/млн запросов против $378 для Claude Haiku.

Ошибки в кэше кода Claude могут увеличить стоимость API в 10-20 раз
Две ошибки кэширования в Claude Code могут незаметно увеличить стоимость API в 10-20 раз. Проблемы были сообщены на Reddit и обсуждались на Hacker News.