소코반 벤치마크: 3개 LLM만 통과한 엄격한 2D 공간 테스트

한 Reddit 사용자가 맞춤형 소코반 맵을 사용하여 최신 LLM의 엄격한 2D 공간 추론 능력을 벤치마킹했습니다. 모델은 Chain-of-Thought 없이 올바른 이동 순서를 생성해야 했으며, 단일 라인에 원시 방향 출력(UP, DOWN, LEFT, RIGHT)만 허용되었습니다. 추가 형식은 허용되지 않았습니다.

결과: 3개 모델만 통과

통과 (올바른 해결책 + 완벽한 형식): ChatGPT, Qwen3.7-max, Gemini 3.5-thinking
실패 (잘못된 이동, 교착 상태 또는 형식 오류): Gemini 3.5-flash, Gemini 3.1 Pro, Qwen3.7-plus (fast, thinking), Qwen3.6-plus, Qwen3.6-35B-A3B, GLM-5, Gemma4-26B-A4B

Claude 모델은 계정 접근 제한으로 인해 테스트되지 않았습니다.

사용된 정확한 프롬프트

다음 프롬프트로 테스트를 재현할 수 있습니다(맵 데이터는 길이를 위해 축약됨):

당신은 완벽한 소코반 자동 해결사입니다. 아래 제공된 표준 XSB 형식 문자 맵을 기반으로 모든 박스($)를 목표 지점(. 또는 +)으로 밀기 위해 필요한 이동 순서를 계산하십시오.

출력 형식 요구사항:

최종 결과는 [반드시] UP, DOWN, LEFT, RIGHT의 네 가지 대문자 단어 시퀀스로만 구성되어야 합니다. 모든 단계는 한 줄에 출력되어야 하며, 영어 쉼표(,)로 엄격히 구분되어야 합니다. [공백을 포함하지 말고] [줄바꿈을 포함하지 마십시오].

벤치마크의 맵 데이터 예시:

[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]

핵심 제약 조건: Chain-of-Thought 금지, 엄격한 출력 형식, 교착 상태 회피. 이 벤치마크는 최신 오픈소스 모델도 출력 제약 조건 하에서 정확한 공간 추적에 어려움을 겪는다는 점을 강조합니다.

대상 독자

공간 추론이나 엄격한 출력 준수(예: 게임 해결, 로봇 공학, 레이아웃 계획)가 필요한 에이전트 작업을 위해 LLM을 평가하는 개발자.

📖 전체 출처 보기: r/LocalLLaMA

LLM 공간 추론 능력 테스트: 소코반 벤치마크에서 ChatGPT, Qwen3.7-max, Gemini 3.5-thinking 선두

결과: 3개 모델만 통과

사용된 정확한 프롬프트

대상 독자

👀 See Also

클로드 코드 사용자들이 예상보다 빨리 사용 한도에 도달하고 있어, 버그가 의심됩니다

AWS Lambda 마이크로 VM: 사용자 및 AI 생성 코드를 위한 VM 수준 격리, 최대 8시간 중단/재개 지원

유튜브 AI 비디오 자동 레이블링: 2026년 간소화된 레이블 및 자동 감지

쿠엄블 컨버전스 프로토콜 v5: 크로스 아키텍처 LLM 실험 결과