Test de raisonnement spatial des LLM : les benchmarks Sokoban montrent que ChatGPT, Qwen3.7-max et Gemini 3.5-thinking sont en tête

Un utilisateur de Reddit a comparé des LLM modernes sur le raisonnement spatial 2D strict en utilisant une carte Sokoban personnalisée. Les modèles devaient produire une séquence correcte de mouvements sans chaîne de pensée — uniquement des directions brutes (UP, DOWN, LEFT, RIGHT) sur une seule ligne. Aucun formatage supplémentaire autorisé.
Résultats : seulement 3 modèles ont réussi
- Réussi (solution correcte + formatage parfait) : ChatGPT, Qwen3.7-max, Gemini 3.5-thinking
- Échoué (mouvements illégaux, impasses ou erreurs de formatage) : Gemini 3.5-flash, Gemini 3.1 Pro, Qwen3.7-plus (fast, thinking), Qwen3.6-plus, Qwen3.6-35B-A3B, GLM-5, Gemma4-26B-A4B
Les modèles Claude n'ont pas été testés en raison de limitations d'accès au compte.
Le prompt exact utilisé
Vous pouvez reproduire le test avec ce prompt (données de carte tronquées pour la longueur) :
You are a perfect Sokoban automatic solver. Based on the standard XSB format character map provided below, calculate the sequence of moves required to push all boxes ($) to their respective goals (. or +).
L'exigence de format de sortie :
The final result [MUST ONLY] consist of a sequence of these four uppercase words: UP, DOWN, LEFT, RIGHT. All steps must be output on a single line, strictly separated by English commas (,). [DO NOT] include spaces and [DO NOT] include newlines.
Exemple de données de carte du benchmark :
[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]
Les contraintes clés : pas de chaîne de pensée, format de sortie strict et évitement des impasses. Le benchmark met en évidence que même les modèles open source avancés ont du mal avec le suivi spatial précis sous contraintes de sortie.
À qui cela s'adresse
Développeurs évaluant les LLM pour des tâches agentiques nécessitant un raisonnement spatial ou le respect strict de la sortie (par exemple, résolution de jeux, robotique, planification d'agencement).
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Claude Code v2.1.37 Publié
Anthropic publie une nouvelle version de Claude Code avec des améliorations et des corrections de bugs.

Anthropic restreint l'utilisation des abonnements Claude avec des interfaces tierces, y compris OpenClaw
Anthropic a annoncé qu'à partir du 4 avril à 12h PT/20h BST, les limites d'abonnement Claude ne pourront plus être utilisées avec des outils tiers comme OpenClaw. Les utilisateurs devront activer une utilisation supplémentaire avec une facturation séparée au paiement à l'usage pour ces intégrations.

Le trafic du subreddit r/ClaudeAI explose, passant de 500 000 à 1,9 million de visiteurs hebdomadaires.
Le subreddit r/ClaudeAI est passé d'environ 250 000 visiteurs hebdomadaires en novembre 2025 à 1,9 million en mars 2026, tandis que le nombre d'abonnés est resté d'environ 85 000 utilisateurs.

Les critiques d'art IA ne parviennent pas à identifier un vrai tableau de Monet, révélant une critique creuse
Un utilisateur a publié un véritable tableau de Monet comme étant généré par IA, et des critiques ont rédigé des analyses détaillées de ses « défauts », soulignant le fossé entre une critique confiante et une réelle compréhension de l'IA par rapport à l'art humain.