LLM 공간 추론 능력 테스트: 소코반 벤치마크에서 ChatGPT, Qwen3.7-max, Gemini 3.5-thinking 선두

한 Reddit 사용자가 맞춤형 소코반 맵을 사용하여 최신 LLM의 엄격한 2D 공간 추론 능력을 벤치마킹했습니다. 모델은 Chain-of-Thought 없이 올바른 이동 순서를 생성해야 했으며, 단일 라인에 원시 방향 출력(UP, DOWN, LEFT, RIGHT)만 허용되었습니다. 추가 형식은 허용되지 않았습니다.
결과: 3개 모델만 통과
- 통과 (올바른 해결책 + 완벽한 형식): ChatGPT, Qwen3.7-max, Gemini 3.5-thinking
- 실패 (잘못된 이동, 교착 상태 또는 형식 오류): Gemini 3.5-flash, Gemini 3.1 Pro, Qwen3.7-plus (fast, thinking), Qwen3.6-plus, Qwen3.6-35B-A3B, GLM-5, Gemma4-26B-A4B
Claude 모델은 계정 접근 제한으로 인해 테스트되지 않았습니다.
사용된 정확한 프롬프트
다음 프롬프트로 테스트를 재현할 수 있습니다(맵 데이터는 길이를 위해 축약됨):
당신은 완벽한 소코반 자동 해결사입니다. 아래 제공된 표준 XSB 형식 문자 맵을 기반으로 모든 박스($)를 목표 지점(. 또는 +)으로 밀기 위해 필요한 이동 순서를 계산하십시오.
출력 형식 요구사항:
최종 결과는 [반드시] UP, DOWN, LEFT, RIGHT의 네 가지 대문자 단어 시퀀스로만 구성되어야 합니다. 모든 단계는 한 줄에 출력되어야 하며, 영어 쉼표(,)로 엄격히 구분되어야 합니다. [공백을 포함하지 말고] [줄바꿈을 포함하지 마십시오].
벤치마크의 맵 데이터 예시:
[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]
핵심 제약 조건: Chain-of-Thought 금지, 엄격한 출력 형식, 교착 상태 회피. 이 벤치마크는 최신 오픈소스 모델도 출력 제약 조건 하에서 정확한 공간 추적에 어려움을 겪는다는 점을 강조합니다.
대상 독자
공간 추론이나 엄격한 출력 준수(예: 게임 해결, 로봇 공학, 레이아웃 계획)가 필요한 에이전트 작업을 위해 LLM을 평가하는 개발자.
📖 전체 출처 보기: r/LocalLLaMA
👀 See Also

클로드 코드 사용자들이 예상보다 빨리 사용 한도에 도달하고 있어, 버그가 의심됩니다
Anthropic은 Claude Code 사용자들이 예상보다 훨씬 빠르게 할당량을 소진하고 있다고 인정했으며, 사용자들은 몇 시간 만에 한도를 모두 사용했다고 보고했습니다. 프롬프트 캐싱의 의심되는 버그로 인해 비용이 10~20배까지 증가할 수 있으며, 버전 2.1.34로 다운그레이드하면 도움이 된다고 알려졌습니다.

AWS Lambda 마이크로 VM: 사용자 및 AI 생성 코드를 위한 VM 수준 격리, 최대 8시간 중단/재개 지원
AWS가 Firecracker 기반의 Lambda MicroVM을 출시하여 사용자별 VM 격리, 거의 즉각적인 시작, 최대 8시간 상태 보존을 제공합니다. 사용자/AI 생성 코드 실행을 위한 서버리스 컴퓨트 프리미티브입니다.

유튜브 AI 비디오 자동 레이블링: 2026년 간소화된 레이블 및 자동 감지
YouTube, AI 라벨 업데이트: 더 눈에 띄는 배치, 사실적인 AI 콘텐츠 자동 감지, YouTube 자체 AI 도구나 C2PA 메타데이터로 제작된 동영상에는 영구 라벨 적용.

쿠엄블 컨버전스 프로토콜 v5: 크로스 아키텍처 LLM 실험 결과
쿼블 수렴 프로토콜 v5는 독립적인 LLM 인스턴스들이 무의미한 단어를 받았을 때, 상상 속 생물에 대한 묘사에서 음운적 프라이밍만으로 예측되는 것보다 더 구체적으로 수렴하는지 테스트합니다. 결과에 따르면 Claude(Opus 4.6 & Sonnet 4.6)와 GPT-5.3 모두 'quumble'이라는 단어에서 작고 둥글며 부드럽고 연보라색 빛을 띠며 생체 발광을 하고 윙윙거리는 생물을 독립적으로 생성했습니다.