Benchmark Sokoban : 3 LLM réussissent un test spatial 2D strict

Un utilisateur de Reddit a comparé des LLM modernes sur le raisonnement spatial 2D strict en utilisant une carte Sokoban personnalisée. Les modèles devaient produire une séquence correcte de mouvements sans chaîne de pensée — uniquement des directions brutes (UP, DOWN, LEFT, RIGHT) sur une seule ligne. Aucun formatage supplémentaire autorisé.

Résultats : seulement 3 modèles ont réussi

Réussi (solution correcte + formatage parfait) : ChatGPT, Qwen3.7-max, Gemini 3.5-thinking
Échoué (mouvements illégaux, impasses ou erreurs de formatage) : Gemini 3.5-flash, Gemini 3.1 Pro, Qwen3.7-plus (fast, thinking), Qwen3.6-plus, Qwen3.6-35B-A3B, GLM-5, Gemma4-26B-A4B

Les modèles Claude n'ont pas été testés en raison de limitations d'accès au compte.

Le prompt exact utilisé

Vous pouvez reproduire le test avec ce prompt (données de carte tronquées pour la longueur) :

You are a perfect Sokoban automatic solver. Based on the standard XSB format character map provided below, calculate the sequence of moves required to push all boxes ($) to their respective goals (. or +).

L'exigence de format de sortie :

The final result [MUST ONLY] consist of a sequence of these four uppercase words: UP, DOWN, LEFT, RIGHT. All steps must be output on a single line, strictly separated by English commas (,). [DO NOT] include spaces and [DO NOT] include newlines.

Exemple de données de carte du benchmark :

[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]

Les contraintes clés : pas de chaîne de pensée, format de sortie strict et évitement des impasses. Le benchmark met en évidence que même les modèles open source avancés ont du mal avec le suivi spatial précis sous contraintes de sortie.

À qui cela s'adresse

Développeurs évaluant les LLM pour des tâches agentiques nécessitant un raisonnement spatial ou le respect strict de la sortie (par exemple, résolution de jeux, robotique, planification d'agencement).

📖 Lire la source complète : r/LocalLLaMA

Test de raisonnement spatial des LLM : les benchmarks Sokoban montrent que ChatGPT, Qwen3.7-max et Gemini 3.5-thinking sont en tête

Résultats : seulement 3 modèles ont réussi

Le prompt exact utilisé

À qui cela s'adresse

👀 See Also

Claude Code v2.1.37 Publié

Anthropic restreint l'utilisation des abonnements Claude avec des interfaces tierces, y compris OpenClaw

Le trafic du subreddit r/ClaudeAI explose, passant de 500 000 à 1,9 million de visiteurs hebdomadaires.

Les critiques d'art IA ne parviennent pas à identifier un vrai tableau de Monet, révélant une critique creuse