Бенчмарк Sokoban: 3 LLM прошли строгий 2D-тест на пространственное мышление

Пользователь Reddit протестировал современные LLM на строгое 2D-пространственное мышление, используя собственную карту Sokoban. Модели должны были выдать правильную последовательность ходов без цепочки рассуждений — только сырые направления (UP, DOWN, LEFT, RIGHT) в одной строке. Никакого дополнительного форматирования.

Результаты: прошли только 3 модели

Пройдено (правильное решение + идеальное форматирование): ChatGPT, Qwen3.7-max, Gemini 3.5-thinking
Не пройдено (недопустимые ходы, тупики или ошибки форматирования): Gemini 3.5-flash, Gemini 3.1 Pro, Qwen3.7-plus (fast, thinking), Qwen3.6-plus, Qwen3.6-35B-A3B, GLM-5, Gemma4-26B-A4B

Модели Claude не тестировались из-за ограничений доступа к аккаунту.

Использованный промт

Вы можете воспроизвести тест с помощью этого промта (данные карты сокращены):

You are a perfect Sokoban automatic solver. Based on the standard XSB format character map provided below, calculate the sequence of moves required to push all boxes ($) to their respective goals (. or +).

Требование к формату вывода:

The final result [MUST ONLY] consist of a sequence of these four uppercase words: UP, DOWN, LEFT, RIGHT. All steps must be output on a single line, strictly separated by English commas (,). [DO NOT] include spaces and [DO NOT] include newlines.

Пример данных карты из бенчмарка:

[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]

Ключевые ограничения: без цепочки рассуждений, строгий формат вывода, избегание тупиков. Бенчмарк подчёркивает, что даже продвинутые открытые модели с трудом справляются с точным пространственным отслеживанием при ограничениях на вывод.

Для кого это

Разработчикам, оценивающим LLM для агентских задач, требующих пространственного мышления или строгого соблюдения формата вывода (например, решение игр, робототехника, планирование размещения).

📖 Читать полный источник: r/LocalLLaMA

Тест пространственного мышления LLM: бенчмарк Sokoban показывает лидерство ChatGPT, Qwen3.7-max и Gemini 3.5-thinking

Результаты: прошли только 3 модели

Использованный промт

Для кого это

👀 Смотрите также

Claude предоставляет дополнительные кредиты на использование для планов Pro, Max и Team.

Политика Википедии в отношении ИИ: Запрет на использование LLM для создания статей, исключения для редактирования и перевода

Бенчмарки показывают, что дистиллированные модели соответствуют передовым LLM в структурированных задачах при 10-кратном снижении затрат.

Ошибки в кэше кода Claude могут увеличить стоимость API в 10-20 раз