倉庫番ベンチマーク：3つのLLMが厳格な2D空間テストに合格

Redditユーザーが、カスタム倉庫番マップを使用して、現代のLLMの厳格な2D空間推論をベンチマークしました。モデルは思考連鎖なしで正しい移動シーケンスを生成する必要がありました。生の方向出力（UP, DOWN, LEFT, RIGHT）を1行で出力し、余分なフォーマットは禁止されました。

結果：合格したのはわずか3モデル

合格（正しい解法＋完璧なフォーマット）：ChatGPT、Qwen3.7-max、Gemini 3.5-thinking
不合格（不正な移動、デッドロック、フォーマットエラー）：Gemini 3.5-flash、Gemini 3.1 Pro、Qwen3.7-plus（高速、思考）、Qwen3.6-plus、Qwen3.6-35B-A3B、GLM-5、Gemma4-26B-A4B

Claudeモデルはアカウントアクセスの制限によりテストされていません。

以下のプロンプトでテストを再現できます（マップデータは長さの都合で一部省略）：

あなたは完璧な倉庫番自動ソルバーです。以下に提供される標準XSB形式のキャラクターマップに基づき、すべての箱（$）を対応するゴール（.または+）に押し込むために必要な移動シーケンスを計算してください。

出力フォーマット要件：

最終結果は以下の4つの大文字単語のみのシーケンスでなければなりません：UP, DOWN, LEFT, RIGHT。すべてのステップは1行で出力し、厳密に英語カンマ（,）で区切ってください。スペースを含めず、改行も含めないでください。

ベンチマークで使用されたマップデータ例：

[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]

主な制約：思考連鎖なし、厳格な出力フォーマット、デッドロック回避。このベンチマークは、高度なオープンソースモデルでも出力制約下での正確な空間追跡が困難であることを示しています。

空間推論や厳格な出力遵守（例：ゲーム解決、ロボティクス、レイアウト計画）を必要とするエージェントタスク向けにLLMを評価している開発者向け。

📖 出典全文: r/LocalLLaMA