LLM räumliches Denken getestet: Sokoban-Benchmark zeigt ChatGPT, Qwen3.7-max, Gemini 3.5-thinking führen

✍️ OpenClawRadar📅 Veröffentlicht: 19. Juni 2026🔗 Source
LLM räumliches Denken getestet: Sokoban-Benchmark zeigt ChatGPT, Qwen3.7-max, Gemini 3.5-thinking führen
Ad

Ein Reddit-Nutzer testete moderne LLMs mit einem benutzerdefinierten Sokoban-Rätsel auf strenges 2D-Raumdenken. Die Modelle mussten eine korrekte Zugsequenz ohne Chain-of-Thought liefern – nur rohe Richtungsausgaben (UP, DOWN, LEFT, RIGHT) in einer einzigen Zeile. Keine zusätzliche Formatierung erlaubt.

Ergebnisse: Nur 3 Modelle bestanden

  • Bestanden (korrekte Lösung + perfekte Formatierung): ChatGPT, Qwen3.7-max, Gemini 3.5-thinking
  • Durchgefallen (illegale Züge, Deadlocks oder Formatierungsfehler): Gemini 3.5-flash, Gemini 3.1 Pro, Qwen3.7-plus (fast, thinking), Qwen3.6-plus, Qwen3.6-35B-A3B, GLM-5, Gemma4-26B-A4B

Claude-Modelle wurden aufgrund von Zugriffsbeschränkungen nicht getestet.

Ad

Der verwendete Prompt

Sie können den Test mit folgendem Prompt reproduzieren (Kartendaten gekürzt):

You are a perfect Sokoban automatic solver. Based on the standard XSB format character map provided below, calculate the sequence of moves required to push all boxes ($) to their respective goals (. or +).

Das Ausgabeformat:

The final result [MUST ONLY] consist of a sequence of these four uppercase words: UP, DOWN, LEFT, RIGHT. All steps must be output on a single line, strictly separated by English commas (,). [DO NOT] include spaces and [DO NOT] include newlines.

Beispiel für Kartendaten aus dem Benchmark:

[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]

Die wichtigsten Einschränkungen: kein Chain-of-Thought, strenge Ausgabeformatierung und Vermeidung von Deadlocks. Der Benchmark zeigt, dass selbst fortschrittliche Open-Source-Modelle Schwierigkeiten mit präziser räumlicher Verfolgung unter Ausgabebeschränkungen haben.

Für wen das interessant ist

Entwickler, die LLMs für agentische Aufgaben mit räumlichem Denken oder strenger Ausgabeformatierung bewerten (z. B. Spiellösung, Robotik, Layoutplanung).

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

KI-Nutzung in der Entwicklung erreicht 93 %, doch Produktivitätsgewinne stagnieren bei 10 %.
Nachrichten

KI-Nutzung in der Entwicklung erreicht 93 %, doch Produktivitätsgewinne stagnieren bei 10 %.

Die Nutzung von KI-Coding-Assistenten ist unter Entwicklern verbreitet, wobei 93% sie einsetzen. Der Produktivitätsgewinn bleibt jedoch auf nur 10% begrenzt.

OpenClawRadar
Claude-App belegt nach Pentagon-Streit zweiten Platz im US-App-Store
Nachrichten

Claude-App belegt nach Pentagon-Streit zweiten Platz im US-App-Store

Die Claude-Chatbot-App von Anthropic stieg auf Platz zwei der kostenlosen Apps im US-App Store von Apple auf, nachdem sie Ende Januar 2026 noch außerhalb der Top 100 lag und bis Ende Februar den zweiten Platz erreichte. Dieser Anstieg folgte auf die öffentlichen Verhandlungen des Unternehmens mit dem Pentagon über Einschränkungen der KI-Nutzung.

OpenClawRadar
Yann LeCuns AMI sammelt 1 Mrd. USD für KI-Weltmodelle und stellt den LLM-Ansatz in Frage.
Nachrichten

Yann LeCuns AMI sammelt 1 Mrd. USD für KI-Weltmodelle und stellt den LLM-Ansatz in Frage.

Yann LeCuns Startup AMI hat über 1 Milliarde Dollar eingesammelt, um KI-Weltmodelle zu entwickeln, die die physische Welt verstehen. Er argumentiert, dass reine Sprachmodelle allein keine menschenähnliche Intelligenz erreichen werden. Das Unternehmen wird Systeme mit dauerhaftem Gedächtnis, logischem Denken und Planungsfähigkeiten für Fertigung, Biomedizin und Robotik aufbauen.

OpenClawRadar
Gemini Embedding 2: Googles erstes nativ multimodales Embedding-Modell veröffentlicht
Nachrichten

Gemini Embedding 2: Googles erstes nativ multimodales Embedding-Modell veröffentlicht

Google hat Gemini Embedding 2 veröffentlicht, sein erstes nativ multimodales Embedding-Modell, das Text, Bilder, Videos, Audio und Dokumente in einen einzigen Embedding-Raum abbildet. Das Modell unterstützt bis zu 8192 Text-Tokens, 6 Bilder pro Anfrage, 120 Sekunden Video und PDFs mit bis zu 6 Seiten Länge, mit flexiblen Ausgabedimensionen von 3072 bis hinunter zu 768.

OpenClawRadar