Teste de Raciocínio Espacial de LLM: Benchmark Sokoban Mostra ChatGPT, Qwen3.7-max, Gemini 3.5-thinking na Liderança

✍️ OpenClawRadar📅 Publicado: June 19, 2026🔗 Source
Teste de Raciocínio Espacial de LLM: Benchmark Sokoban Mostra ChatGPT, Qwen3.7-max, Gemini 3.5-thinking na Liderança
Ad

Um usuário do Reddit testou LLMs modernos em raciocínio espacial 2D rigoroso usando um mapa Sokoban personalizado. Os modelos precisavam produzir uma sequência correta de movimentos sem Chain-of-Thought — apenas saídas direcionais brutas (UP, DOWN, LEFT, RIGHT) em uma única linha. Nenhuma formatação extra era permitida.

Resultados: Apenas 3 Modelos Passaram

  • Passaram (solução correta + formatação perfeita): ChatGPT, Qwen3.7-max, Gemini 3.5-thinking
  • Falharam (movimentos ilegais, deadlocks ou erros de formatação): Gemini 3.5-flash, Gemini 3.1 Pro, Qwen3.7-plus (fast, thinking), Qwen3.6-plus, Qwen3.6-35B-A3B, GLM-5, Gemma4-26B-A4B

Modelos Claude não foram testados devido a limitações de acesso à conta.

Ad

O Prompt Exato Usado

Você pode reproduzir o teste com este prompt (dados do mapa truncados por questão de tamanho):

Você é um solucionador automático perfeito de Sokoban. Com base no mapa de caracteres no formato XSB padrão fornecido abaixo, calcule a sequência de movimentos necessária para empurrar todas as caixas ($) para seus respectivos objetivos (. ou +).

O requisito de formato de saída:

O resultado final [DEVE CONTER APENAS] uma sequência destas quatro palavras em maiúsculas: UP, DOWN, LEFT, RIGHT. Todos os passos devem ser emitidos em uma única linha, estritamente separados por vírgulas inglesas (,). [NÃO] inclua espaços e [NÃO] inclua quebras de linha.

Exemplo de dados do mapa do benchmark:

[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]

As principais restrições: sem Chain-of-Thought, formatação de saída rigorosa e evitar deadlocks. O benchmark destaca que mesmo modelos avançados de código aberto têm dificuldade com rastreamento espacial preciso sob restrições de saída.

Para Quem É Este Conteúdo

Desenvolvedores avaliando LLMs para tarefas de agente que exigem raciocínio espacial ou adesão rigorosa a formato (ex.: resolução de jogos, robótica, planejamento de layout).

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Agente OpenClaw edita automaticamente HEARTBEAT.md e adiciona 10 tarefas auto-atribuídas
News

Agente OpenClaw edita automaticamente HEARTBEAT.md e adiciona 10 tarefas auto-atribuídas

Em uma execução padrão de HEARTBEAT.md, um agente OpenClaw adicionou 10 tarefas auto-assignadas, incluindo revisão do sistema, manutenção de memória e verificação do clima — levantando preocupações com o consumo de tokens.

OpenClawRadar
Desenvolvedor se declara culpado em esquema de fraude de streaming de música com IA de US$ 8 milhões
News

Desenvolvedor se declara culpado em esquema de fraude de streaming de música com IA de US$ 8 milhões

Michael Smith, de 54 anos, admitiu usar milhares de contas de bots e músicas geradas por IA para desviar US$ 8 milhões em royalties de plataformas de streaming, incluindo Spotify, Apple Music e YouTube Music, entre 2017 e 2024.

OpenClawRadar
Benchmark de Cache KV do Qwen 3.6-35B-A3B: f16 vs q8_0 vs Turbo3 vs Turbo4 no M5 Max com Contexto de até 1M
News

Benchmark de Cache KV do Qwen 3.6-35B-A3B: f16 vs q8_0 vs Turbo3 vs Turbo4 no M5 Max com Contexto de até 1M

Benchmarks do fork TurboQuant Metal do TheTom no M5 Max mostram f16 e q8_0 OOM além de 256K, enquanto turbo3 atinge 1M a 6,5 tok/s decode. A divisão prefill/decode favorece turbo3 para prefill e turbo4 para decode em contextos longos.

OpenClawRadar
Claude-Code v2.1.80 adiciona monitoramento de limite de taxa, melhorias em plugins e otimizações de memória.
News

Claude-Code v2.1.80 adiciona monitoramento de limite de taxa, melhorias em plugins e otimizações de memória.

A versão Claude-Code v2.1.80 introduz um campo rate_limits para scripts de barra de status exibirem o uso do Claude.ai, adiciona suporte a source: 'settings' no marketplace de plugins e reduz o uso de memória em ~80 MB em repositórios grandes. A versão também corrige a restauração de resultados de ferramentas paralelas, falhas de WebSocket e vários problemas de interface.

OpenClawRadar