Sokoban Benchmark: Solo 3 LLMs Aprueban Prueba Espacial 2D Estricta

Un usuario de Reddit evaluó LLMs modernos en razonamiento espacial 2D estricto usando un mapa personalizado de Sokoban. Los modelos debían producir una secuencia correcta de movimientos sin Cadena de Pensamiento — solo salidas direccionales crudas (UP, DOWN, LEFT, RIGHT) en una sola línea. Sin formato adicional permitido.

Resultados: Solo 3 Modelos Pasaron

Aprobados (solución correcta + formato perfecto): ChatGPT, Qwen3.7-max, Gemini 3.5-thinking
Fallaron (movimientos ilegales, bloqueos o errores de formato): Gemini 3.5-flash, Gemini 3.1 Pro, Qwen3.7-plus (rápido, pensamiento), Qwen3.6-plus, Qwen3.6-35B-A3B, GLM-5, Gemma4-26B-A4B

Los modelos Claude no se probaron debido a limitaciones de acceso a la cuenta.

El Prompt Exacto Usado

Puedes reproducir la prueba con este prompt (datos del mapa recortados por longitud):

You are a perfect Sokoban automatic solver. Based on the standard XSB format character map provided below, calculate the sequence of moves required to push all boxes ($) to their respective goals (. or +).

El requisito de formato de salida:

The final result [MUST ONLY] consist of a sequence of these four uppercase words: UP, DOWN, LEFT, RIGHT. All steps must be output on a single line, strictly separated by English commas (,). [DO NOT] include spaces and [DO NOT] include newlines.

Ejemplo de datos del mapa del benchmark:

[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]

Las restricciones clave: sin Cadena de Pensamiento, formato de salida estricto y evitar bloqueos. El benchmark destaca que incluso los modelos avanzados de código abierto tienen dificultades con el seguimiento espacial preciso bajo restricciones de salida.

Para Quién Es Esto

Desarrolladores que evalúan LLMs para tareas agentivas que requieren razonamiento espacial o adherencia estricta a la salida (por ejemplo, resolución de juegos, robótica, planificación de diseños).

📖 Leer la fuente completa: r/LocalLLaMA

Prueba de razonamiento espacial de LLM: el benchmark Sokoban muestra que ChatGPT, Qwen3.7-max y Gemini 3.5-thinking lideran

Resultados: Solo 3 Modelos Pasaron

El Prompt Exacto Usado

Para Quién Es Esto

👀 Ver también

Plataforma Claude en AWS ahora disponible de forma general: experiencia nativa de Anthropic a través de IAM, CloudTrail y facturación de AWS

Sistemas Multiagente: Flujos de Trabajo de Ingeniería vs. Inteligencia Emergente

Película de Cannes costó $500k hacerla, $400k fueron costos de computación de IA

"Evaluación de los Últimos Modelos de IA: El Auge de los Modelos Extremos"