Test de raisonnement spatial des LLM : les benchmarks Sokoban montrent que ChatGPT, Qwen3.7-max et Gemini 3.5-thinking sont en tête

✍️ OpenClawRadar📅 Publié: June 19, 2026🔗 Source
Test de raisonnement spatial des LLM : les benchmarks Sokoban montrent que ChatGPT, Qwen3.7-max et Gemini 3.5-thinking sont en tête
Ad

Un utilisateur de Reddit a comparé des LLM modernes sur le raisonnement spatial 2D strict en utilisant une carte Sokoban personnalisée. Les modèles devaient produire une séquence correcte de mouvements sans chaîne de pensée — uniquement des directions brutes (UP, DOWN, LEFT, RIGHT) sur une seule ligne. Aucun formatage supplémentaire autorisé.

Résultats : seulement 3 modèles ont réussi

  • Réussi (solution correcte + formatage parfait) : ChatGPT, Qwen3.7-max, Gemini 3.5-thinking
  • Échoué (mouvements illégaux, impasses ou erreurs de formatage) : Gemini 3.5-flash, Gemini 3.1 Pro, Qwen3.7-plus (fast, thinking), Qwen3.6-plus, Qwen3.6-35B-A3B, GLM-5, Gemma4-26B-A4B

Les modèles Claude n'ont pas été testés en raison de limitations d'accès au compte.

Ad

Le prompt exact utilisé

Vous pouvez reproduire le test avec ce prompt (données de carte tronquées pour la longueur) :

You are a perfect Sokoban automatic solver. Based on the standard XSB format character map provided below, calculate the sequence of moves required to push all boxes ($) to their respective goals (. or +).

L'exigence de format de sortie :

The final result [MUST ONLY] consist of a sequence of these four uppercase words: UP, DOWN, LEFT, RIGHT. All steps must be output on a single line, strictly separated by English commas (,). [DO NOT] include spaces and [DO NOT] include newlines.

Exemple de données de carte du benchmark :

[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]

Les contraintes clés : pas de chaîne de pensée, format de sortie strict et évitement des impasses. Le benchmark met en évidence que même les modèles open source avancés ont du mal avec le suivi spatial précis sous contraintes de sortie.

À qui cela s'adresse

Développeurs évaluant les LLM pour des tâches agentiques nécessitant un raisonnement spatial ou le respect strict de la sortie (par exemple, résolution de jeux, robotique, planification d'agencement).

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also