Prueba de razonamiento espacial de LLM: el benchmark Sokoban muestra que ChatGPT, Qwen3.7-max y Gemini 3.5-thinking lideran

✍️ OpenClawRadar📅 Publicado: 19 de junio de 2026🔗 Source
Prueba de razonamiento espacial de LLM: el benchmark Sokoban muestra que ChatGPT, Qwen3.7-max y Gemini 3.5-thinking lideran
Ad

Un usuario de Reddit evaluó LLMs modernos en razonamiento espacial 2D estricto usando un mapa personalizado de Sokoban. Los modelos debían producir una secuencia correcta de movimientos sin Cadena de Pensamiento — solo salidas direccionales crudas (UP, DOWN, LEFT, RIGHT) en una sola línea. Sin formato adicional permitido.

Resultados: Solo 3 Modelos Pasaron

  • Aprobados (solución correcta + formato perfecto): ChatGPT, Qwen3.7-max, Gemini 3.5-thinking
  • Fallaron (movimientos ilegales, bloqueos o errores de formato): Gemini 3.5-flash, Gemini 3.1 Pro, Qwen3.7-plus (rápido, pensamiento), Qwen3.6-plus, Qwen3.6-35B-A3B, GLM-5, Gemma4-26B-A4B

Los modelos Claude no se probaron debido a limitaciones de acceso a la cuenta.

Ad

El Prompt Exacto Usado

Puedes reproducir la prueba con este prompt (datos del mapa recortados por longitud):

You are a perfect Sokoban automatic solver. Based on the standard XSB format character map provided below, calculate the sequence of moves required to push all boxes ($) to their respective goals (. or +).

El requisito de formato de salida:

The final result [MUST ONLY] consist of a sequence of these four uppercase words: UP, DOWN, LEFT, RIGHT. All steps must be output on a single line, strictly separated by English commas (,). [DO NOT] include spaces and [DO NOT] include newlines.

Ejemplo de datos del mapa del benchmark:

[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]

Las restricciones clave: sin Cadena de Pensamiento, formato de salida estricto y evitar bloqueos. El benchmark destaca que incluso los modelos avanzados de código abierto tienen dificultades con el seguimiento espacial preciso bajo restricciones de salida.

Para Quién Es Esto

Desarrolladores que evalúan LLMs para tareas agentivas que requieren razonamiento espacial o adherencia estricta a la salida (por ejemplo, resolución de juegos, robótica, planificación de diseños).

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Plataforma Claude en AWS ahora disponible de forma general: experiencia nativa de Anthropic a través de IAM, CloudTrail y facturación de AWS
Noticias

Plataforma Claude en AWS ahora disponible de forma general: experiencia nativa de Anthropic a través de IAM, CloudTrail y facturación de AWS

AWS anunció la disponibilidad general de Claude Platform en AWS, lo que brinda a los desarrolladores acceso directo a la experiencia nativa de Claude de Anthropic a través de sus cuentas AWS existentes con autenticación IAM, facturación AWS y registro CloudTrail, pero los datos del cliente se procesan fuera del perímetro de seguridad de AWS.

OpenClawRadar
Sistemas Multiagente: Flujos de Trabajo de Ingeniería vs. Inteligencia Emergente
Noticias

Sistemas Multiagente: Flujos de Trabajo de Ingeniería vs. Inteligencia Emergente

Un análisis de un desarrollador argumenta que los sistemas multiagente actuales como LangGraph y los flujos de trabajo de AutoGen funcionan más como microservicios con envoltorios de LLM, proporcionando descomposición de tareas, paralelización y modularidad en lugar de una verdadera inteligencia emergente.

OpenClawRadar
Película de Cannes costó $500k hacerla, $400k fueron costos de computación de IA
Noticias

Película de Cannes costó $500k hacerla, $400k fueron costos de computación de IA

Una película proyectada en Cannes costó $500,000 en producirse; $400,000 se gastaron en computación de IA. Un dato impactante para los desarrolladores de agentes de IA que crean canales de vídeo generativos.

OpenClawRadar
"Evaluación de los Últimos Modelos de IA: El Auge de los Modelos Extremos"
Noticias

"Evaluación de los Últimos Modelos de IA: El Auge de los Modelos Extremos"

Un análisis detallado de 40 nuevos modelos de IA revela un mercado dividido con 'Modo Dios' y 'Modo Flash' a la cabeza. Los modelos de gama media ahora se consideran obsoletos.

OpenClawRadar