LLM空間推論テスト:SokobanベンチマークでChatGPT、Qwen3.7-max、Gemini 3.5-thinkingがリード

Redditユーザーが、カスタム倉庫番マップを使用して、現代のLLMの厳格な2D空間推論をベンチマークしました。モデルは思考連鎖なしで正しい移動シーケンスを生成する必要がありました。生の方向出力(UP, DOWN, LEFT, RIGHT)を1行で出力し、余分なフォーマットは禁止されました。
結果:合格したのはわずか3モデル
- 合格(正しい解法+完璧なフォーマット):ChatGPT、Qwen3.7-max、Gemini 3.5-thinking
- 不合格(不正な移動、デッドロック、フォーマットエラー):Gemini 3.5-flash、Gemini 3.1 Pro、Qwen3.7-plus(高速、思考)、Qwen3.6-plus、Qwen3.6-35B-A3B、GLM-5、Gemma4-26B-A4B
Claudeモデルはアカウントアクセスの制限によりテストされていません。
使用された正確なプロンプト
以下のプロンプトでテストを再現できます(マップデータは長さの都合で一部省略):
あなたは完璧な倉庫番自動ソルバーです。以下に提供される標準XSB形式のキャラクターマップに基づき、すべての箱($)を対応するゴール(.または+)に押し込むために必要な移動シーケンスを計算してください。
出力フォーマット要件:
最終結果は以下の4つの大文字単語のみのシーケンスでなければなりません:UP, DOWN, LEFT, RIGHT。すべてのステップは1行で出力し、厳密に英語カンマ(,)で区切ってください。スペースを含めず、改行も含めないでください。
ベンチマークで使用されたマップデータ例:
[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]
主な制約:思考連鎖なし、厳格な出力フォーマット、デッドロック回避。このベンチマークは、高度なオープンソースモデルでも出力制約下での正確な空間追跡が困難であることを示しています。
対象読者
空間推論や厳格な出力遵守(例:ゲーム解決、ロボティクス、レイアウト計画)を必要とするエージェントタスク向けにLLMを評価している開発者向け。
📖 出典全文: r/LocalLLaMA
👀 See Also

OpenRouterユーザーがSonnet 4.5の思考ブロックで無効な署名バグを報告
OpenRouterを介したClaude Sonnet 4.5の拡張思考モードに影響するバグにより、署名検証の失敗が発生しています。

Claudeデイリーダイジェスト:/dream機能リリース、利用制限への反発、アクセシビリティツール
AnthropicはClaudeのAuto Memoryシステム向けに/dream機能をリリースしましたが、コミュニティでは利用制限に関する不満が噴出しています。また、耳の不自由な開発者がClaude Code用のターミナルフラッシュ通知プラグインを構築しました。

オープンソース対フロンティアモデル: シングルファイルキャンバスカーレーンベンチマーク
ある開発者が、GPT-5.5、Claude Opus 4.7、Qwen 3.6 Plusなど12のモデルを、単一ファイルのHTMLキャンバスを使った車の運転アニメーションタスクでテストし、結果を公開比較しました。

Nvidia、オープンウェイトAIモデルに260億ドルを投資し、Nemotron 3 Superをリリース
Nvidiaは、2025年の財務報告書によると、オープンソースAIモデルの構築に5年間で260億ドルを支出する予定です。同社はまた、ベンチマークでGPT-OSSを上回り、OpenClaw制御のPinchBenchで1位を獲得する1280億パラメータのモデル「Nemotron 3 Super」をリリースしました。