Sokoban-Benchmark: 3 LLMs bestehen strengen 2D-Raumtest

Ein Reddit-Nutzer testete moderne LLMs mit einem benutzerdefinierten Sokoban-Rätsel auf strenges 2D-Raumdenken. Die Modelle mussten eine korrekte Zugsequenz ohne Chain-of-Thought liefern – nur rohe Richtungsausgaben (UP, DOWN, LEFT, RIGHT) in einer einzigen Zeile. Keine zusätzliche Formatierung erlaubt.

Ergebnisse: Nur 3 Modelle bestanden

Bestanden (korrekte Lösung + perfekte Formatierung): ChatGPT, Qwen3.7-max, Gemini 3.5-thinking
Durchgefallen (illegale Züge, Deadlocks oder Formatierungsfehler): Gemini 3.5-flash, Gemini 3.1 Pro, Qwen3.7-plus (fast, thinking), Qwen3.6-plus, Qwen3.6-35B-A3B, GLM-5, Gemma4-26B-A4B

Claude-Modelle wurden aufgrund von Zugriffsbeschränkungen nicht getestet.

Der verwendete Prompt

Sie können den Test mit folgendem Prompt reproduzieren (Kartendaten gekürzt):

You are a perfect Sokoban automatic solver. Based on the standard XSB format character map provided below, calculate the sequence of moves required to push all boxes ($) to their respective goals (. or +).

Das Ausgabeformat:

The final result [MUST ONLY] consist of a sequence of these four uppercase words: UP, DOWN, LEFT, RIGHT. All steps must be output on a single line, strictly separated by English commas (,). [DO NOT] include spaces and [DO NOT] include newlines.

Beispiel für Kartendaten aus dem Benchmark:

[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]

Die wichtigsten Einschränkungen: kein Chain-of-Thought, strenge Ausgabeformatierung und Vermeidung von Deadlocks. Der Benchmark zeigt, dass selbst fortschrittliche Open-Source-Modelle Schwierigkeiten mit präziser räumlicher Verfolgung unter Ausgabebeschränkungen haben.

Für wen das interessant ist

Entwickler, die LLMs für agentische Aufgaben mit räumlichem Denken oder strenger Ausgabeformatierung bewerten (z. B. Spiellösung, Robotik, Layoutplanung).

📖 Vollständige Quelle lesen: r/LocalLLaMA

LLM räumliches Denken getestet: Sokoban-Benchmark zeigt ChatGPT, Qwen3.7-max, Gemini 3.5-thinking führen

Ergebnisse: Nur 3 Modelle bestanden

Der verwendete Prompt

Für wen das interessant ist

👀 Siehe auch

KI-Nutzung in der Entwicklung erreicht 93 %, doch Produktivitätsgewinne stagnieren bei 10 %.

Claude-App belegt nach Pentagon-Streit zweiten Platz im US-App-Store

Yann LeCuns AMI sammelt 1 Mrd. USD für KI-Weltmodelle und stellt den LLM-Ansatz in Frage.

Gemini Embedding 2: Googles erstes nativ multimodales Embedding-Modell veröffentlicht