Benchmark Sokoban: 3 LLMs Passam em Teste 2D Rigoroso

Um usuário do Reddit testou LLMs modernos em raciocínio espacial 2D rigoroso usando um mapa Sokoban personalizado. Os modelos precisavam produzir uma sequência correta de movimentos sem Chain-of-Thought — apenas saídas direcionais brutas (UP, DOWN, LEFT, RIGHT) em uma única linha. Nenhuma formatação extra era permitida.

Resultados: Apenas 3 Modelos Passaram

Passaram (solução correta + formatação perfeita): ChatGPT, Qwen3.7-max, Gemini 3.5-thinking
Falharam (movimentos ilegais, deadlocks ou erros de formatação): Gemini 3.5-flash, Gemini 3.1 Pro, Qwen3.7-plus (fast, thinking), Qwen3.6-plus, Qwen3.6-35B-A3B, GLM-5, Gemma4-26B-A4B

Modelos Claude não foram testados devido a limitações de acesso à conta.

O Prompt Exato Usado

Você pode reproduzir o teste com este prompt (dados do mapa truncados por questão de tamanho):

Você é um solucionador automático perfeito de Sokoban. Com base no mapa de caracteres no formato XSB padrão fornecido abaixo, calcule a sequência de movimentos necessária para empurrar todas as caixas ($) para seus respectivos objetivos (. ou +).

O requisito de formato de saída:

O resultado final [DEVE CONTER APENAS] uma sequência destas quatro palavras em maiúsculas: UP, DOWN, LEFT, RIGHT. Todos os passos devem ser emitidos em uma única linha, estritamente separados por vírgulas inglesas (,). [NÃO] inclua espaços e [NÃO] inclua quebras de linha.

Exemplo de dados do mapa do benchmark:

[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]

As principais restrições: sem Chain-of-Thought, formatação de saída rigorosa e evitar deadlocks. O benchmark destaca que mesmo modelos avançados de código aberto têm dificuldade com rastreamento espacial preciso sob restrições de saída.

Para Quem É Este Conteúdo

Desenvolvedores avaliando LLMs para tarefas de agente que exigem raciocínio espacial ou adesão rigorosa a formato (ex.: resolução de jogos, robótica, planejamento de layout).

📖 Leia a fonte completa: r/LocalLLaMA

Teste de Raciocínio Espacial de LLM: Benchmark Sokoban Mostra ChatGPT, Qwen3.7-max, Gemini 3.5-thinking na Liderança

Resultados: Apenas 3 Modelos Passaram

O Prompt Exato Usado

Para Quem É Este Conteúdo

👀 See Also

Agente OpenClaw edita automaticamente HEARTBEAT.md e adiciona 10 tarefas auto-atribuídas

Desenvolvedor se declara culpado em esquema de fraude de streaming de música com IA de US$ 8 milhões

Benchmark de Cache KV do Qwen 3.6-35B-A3B: f16 vs q8_0 vs Turbo3 vs Turbo4 no M5 Max com Contexto de até 1M

Claude-Code v2.1.80 adiciona monitoramento de limite de taxa, melhorias em plugins e otimizações de memória.