Prueba de razonamiento espacial de LLM: el benchmark Sokoban muestra que ChatGPT, Qwen3.7-max y Gemini 3.5-thinking lideran

Un usuario de Reddit evaluó LLMs modernos en razonamiento espacial 2D estricto usando un mapa personalizado de Sokoban. Los modelos debían producir una secuencia correcta de movimientos sin Cadena de Pensamiento — solo salidas direccionales crudas (UP, DOWN, LEFT, RIGHT) en una sola línea. Sin formato adicional permitido.
Resultados: Solo 3 Modelos Pasaron
- Aprobados (solución correcta + formato perfecto): ChatGPT, Qwen3.7-max, Gemini 3.5-thinking
- Fallaron (movimientos ilegales, bloqueos o errores de formato): Gemini 3.5-flash, Gemini 3.1 Pro, Qwen3.7-plus (rápido, pensamiento), Qwen3.6-plus, Qwen3.6-35B-A3B, GLM-5, Gemma4-26B-A4B
Los modelos Claude no se probaron debido a limitaciones de acceso a la cuenta.
El Prompt Exacto Usado
Puedes reproducir la prueba con este prompt (datos del mapa recortados por longitud):
You are a perfect Sokoban automatic solver. Based on the standard XSB format character map provided below, calculate the sequence of moves required to push all boxes ($) to their respective goals (. or +).
El requisito de formato de salida:
The final result [MUST ONLY] consist of a sequence of these four uppercase words: UP, DOWN, LEFT, RIGHT. All steps must be output on a single line, strictly separated by English commas (,). [DO NOT] include spaces and [DO NOT] include newlines.
Ejemplo de datos del mapa del benchmark:
[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]
Las restricciones clave: sin Cadena de Pensamiento, formato de salida estricto y evitar bloqueos. El benchmark destaca que incluso los modelos avanzados de código abierto tienen dificultades con el seguimiento espacial preciso bajo restricciones de salida.
Para Quién Es Esto
Desarrolladores que evalúan LLMs para tareas agentivas que requieren razonamiento espacial o adherencia estricta a la salida (por ejemplo, resolución de juegos, robótica, planificación de diseños).
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Plataforma Claude en AWS ahora disponible de forma general: experiencia nativa de Anthropic a través de IAM, CloudTrail y facturación de AWS
AWS anunció la disponibilidad general de Claude Platform en AWS, lo que brinda a los desarrolladores acceso directo a la experiencia nativa de Claude de Anthropic a través de sus cuentas AWS existentes con autenticación IAM, facturación AWS y registro CloudTrail, pero los datos del cliente se procesan fuera del perímetro de seguridad de AWS.

Sistemas Multiagente: Flujos de Trabajo de Ingeniería vs. Inteligencia Emergente
Un análisis de un desarrollador argumenta que los sistemas multiagente actuales como LangGraph y los flujos de trabajo de AutoGen funcionan más como microservicios con envoltorios de LLM, proporcionando descomposición de tareas, paralelización y modularidad en lugar de una verdadera inteligencia emergente.

Película de Cannes costó $500k hacerla, $400k fueron costos de computación de IA
Una película proyectada en Cannes costó $500,000 en producirse; $400,000 se gastaron en computación de IA. Un dato impactante para los desarrolladores de agentes de IA que crean canales de vídeo generativos.

"Evaluación de los Últimos Modelos de IA: El Auge de los Modelos Extremos"
Un análisis detallado de 40 nuevos modelos de IA revela un mercado dividido con 'Modo Dios' y 'Modo Flash' a la cabeza. Los modelos de gama media ahora se consideran obsoletos.