LLM 공간 추론 능력 테스트: 소코반 벤치마크에서 ChatGPT, Qwen3.7-max, Gemini 3.5-thinking 선두

✍️ OpenClawRadar📅 게시일: June 19, 2026🔗 Source
LLM 공간 추론 능력 테스트: 소코반 벤치마크에서 ChatGPT, Qwen3.7-max, Gemini 3.5-thinking 선두
Ad

한 Reddit 사용자가 맞춤형 소코반 맵을 사용하여 최신 LLM의 엄격한 2D 공간 추론 능력을 벤치마킹했습니다. 모델은 Chain-of-Thought 없이 올바른 이동 순서를 생성해야 했으며, 단일 라인에 원시 방향 출력(UP, DOWN, LEFT, RIGHT)만 허용되었습니다. 추가 형식은 허용되지 않았습니다.

결과: 3개 모델만 통과

  • 통과 (올바른 해결책 + 완벽한 형식): ChatGPT, Qwen3.7-max, Gemini 3.5-thinking
  • 실패 (잘못된 이동, 교착 상태 또는 형식 오류): Gemini 3.5-flash, Gemini 3.1 Pro, Qwen3.7-plus (fast, thinking), Qwen3.6-plus, Qwen3.6-35B-A3B, GLM-5, Gemma4-26B-A4B

Claude 모델은 계정 접근 제한으로 인해 테스트되지 않았습니다.

Ad

사용된 정확한 프롬프트

다음 프롬프트로 테스트를 재현할 수 있습니다(맵 데이터는 길이를 위해 축약됨):

당신은 완벽한 소코반 자동 해결사입니다. 아래 제공된 표준 XSB 형식 문자 맵을 기반으로 모든 박스($)를 목표 지점(. 또는 +)으로 밀기 위해 필요한 이동 순서를 계산하십시오.

출력 형식 요구사항:

최종 결과는 [반드시] UP, DOWN, LEFT, RIGHT의 네 가지 대문자 단어 시퀀스로만 구성되어야 합니다. 모든 단계는 한 줄에 출력되어야 하며, 영어 쉼표(,)로 엄격히 구분되어야 합니다. [공백을 포함하지 말고] [줄바꿈을 포함하지 마십시오].

벤치마크의 맵 데이터 예시:

[" ###", " ## # ####", " ## ### #", "## $ #", "# @$ # #", "### $### #", " # #.. #", " ## ##.# ##", " # ##", " # ##", " #######"]

핵심 제약 조건: Chain-of-Thought 금지, 엄격한 출력 형식, 교착 상태 회피. 이 벤치마크는 최신 오픈소스 모델도 출력 제약 조건 하에서 정확한 공간 추적에 어려움을 겪는다는 점을 강조합니다.

대상 독자

공간 추론이나 엄격한 출력 준수(예: 게임 해결, 로봇 공학, 레이아웃 계획)가 필요한 에이전트 작업을 위해 LLM을 평가하는 개발자.

📖 전체 출처 보기: r/LocalLLaMA

Ad

👀 See Also

클로드 코드 사용자들이 예상보다 빨리 사용 한도에 도달하고 있어, 버그가 의심됩니다
News

클로드 코드 사용자들이 예상보다 빨리 사용 한도에 도달하고 있어, 버그가 의심됩니다

Anthropic은 Claude Code 사용자들이 예상보다 훨씬 빠르게 할당량을 소진하고 있다고 인정했으며, 사용자들은 몇 시간 만에 한도를 모두 사용했다고 보고했습니다. 프롬프트 캐싱의 의심되는 버그로 인해 비용이 10~20배까지 증가할 수 있으며, 버전 2.1.34로 다운그레이드하면 도움이 된다고 알려졌습니다.

OpenClawRadar
AWS Lambda 마이크로 VM: 사용자 및 AI 생성 코드를 위한 VM 수준 격리, 최대 8시간 중단/재개 지원
News

AWS Lambda 마이크로 VM: 사용자 및 AI 생성 코드를 위한 VM 수준 격리, 최대 8시간 중단/재개 지원

AWS가 Firecracker 기반의 Lambda MicroVM을 출시하여 사용자별 VM 격리, 거의 즉각적인 시작, 최대 8시간 상태 보존을 제공합니다. 사용자/AI 생성 코드 실행을 위한 서버리스 컴퓨트 프리미티브입니다.

OpenClawRadar
유튜브 AI 비디오 자동 레이블링: 2026년 간소화된 레이블 및 자동 감지
News

유튜브 AI 비디오 자동 레이블링: 2026년 간소화된 레이블 및 자동 감지

YouTube, AI 라벨 업데이트: 더 눈에 띄는 배치, 사실적인 AI 콘텐츠 자동 감지, YouTube 자체 AI 도구나 C2PA 메타데이터로 제작된 동영상에는 영구 라벨 적용.

OpenClawRadar
쿠엄블 컨버전스 프로토콜 v5: 크로스 아키텍처 LLM 실험 결과
News

쿠엄블 컨버전스 프로토콜 v5: 크로스 아키텍처 LLM 실험 결과

쿼블 수렴 프로토콜 v5는 독립적인 LLM 인스턴스들이 무의미한 단어를 받았을 때, 상상 속 생물에 대한 묘사에서 음운적 프라이밍만으로 예측되는 것보다 더 구체적으로 수렴하는지 테스트합니다. 결과에 따르면 Claude(Opus 4.6 & Sonnet 4.6)와 GPT-5.3 모두 'quumble'이라는 단어에서 작고 둥글며 부드럽고 연보라색 빛을 띠며 생체 발광을 하고 윙윙거리는 생물을 독립적으로 생성했습니다.

OpenClawRadar