SPLICE 벤치마크 결과, 시각 언어 모델(VLMs)은 시간적 추론에 어려움을 겪고 언어 사전 지식에 의존하는 것으로 나타났습니다.

SPLICE 벤치마크 결과
SPLICE 벤치마크는 모델들이 섞인 비디오 클립의 올바른 순서를 재구성하도록 하여 시간적, 인과적, 공간적, 맥락적, 상식적 추론 능력을 테스트합니다. 이 연구는 원본 게시물 작성자가 공동 저자로 참여했으며, EMNLP 2025에서 발표되었습니다.
모델 성능 상세
테스트된 모델에는 Gemini Flash (1.5 및 2.0), Qwen2-VL (7B 및 72B), InternVL2.5, LLaVA-OneVision이 포함되었습니다. Gemini 2.0 Flash는 비전 전용 과제에서 51%의 점수를 기록했으며, 인간의 성능은 85%였습니다. 오픈소스 모델들은 특히 어려움을 겪었습니다:
- LLaVA-OneVision-72B는 비전 전용 설정에서 무작위 추측 수준을 간신히 넘는 점수를 기록했습니다
- InternVL2.5-78B도 비슷하게 낮은 성능을 보였습니다
- Qwen2-VL-72B는 비전 전용에서 약 30%에 그쳤습니다
- Qwen2-VL-7B는 72B 변형과 비슷한 성능을 보였는데, 이는 언어 모델을 확장하는 것이 비전 인코더의 병목 현상이 문제일 때 도움이 되지 않음을 시사합니다
언어 사전 지식 의존성
클립 내용을 설명하는 사람이 작성한 텍스트 주석이 추가되었을 때, 모델 성능은 크게 향상된 반면 인간 성능은 변함없이 유지되었습니다. 이는 모델들이 약한 시각적 이해를 보완하기 위해 언어 사전 지식에 의존함을 나타냅니다. 특히, Qwen2-VL-72B는 텍스트 전용 추론에서 Gemini를 능가했습니다.
시각적 지름길 행동
모델들은 문제가 있는 추론 패턴을 보였습니다. 첫 번째와 마지막 비디오 클립이 시각적으로 유사할 때(예: 프린터 문 열기와 닫기), 모델들은 그 클립들이 인접하다고 예측한 비율이 57%였으며, 이는 인간의 2.5%, 무작위 확률 27%와 비교됩니다. 이는 모델들이 사건에 대해 추론하기보다 시각적 유사성에 대한 패턴 매칭을 하고 있음을 시사합니다.
테스트 한계 및 향후 연구
이 연구는 Claude(비디오 입력을 지원하지 않음)나 OpenAI 모델들(테스트 당시 다중 비디오 입력을 안정적으로 처리할 수 없었음)을 테스트하지 않았습니다. 데이터셋은 공개되어 있으며, 게시물 작성자는 Gemini 3 Flash와 Qwen3-VL(기본 256K 인터리브 컨텍스트, 향상된 시공간 모델링, 최대 235B의 MoE 변형 포함)과 같은 최신 모델들이 SPLICE에서 테스트되어 언어 사전 지식 문제가 지속되는지 확인해야 한다고 언급했습니다. 예비 테스트는 언어 사전 지식 문제가 여전히 존재할 수 있음을 시사하지만, 모든 실험 샘플에 걸쳐 통계적 유의성이 확립되지는 않았습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

OpenClawd 무료 실행: 성공과 도전
r/clawdbot의 최근 게시물에서 한 회원이 API 키 없이 OpenClawd를 실행한 경험을 공유하며, 성공 사례와 직면한 도전 과제에 대해 논의했습니다.

'클라우지' 분석: AI 구독 모델에서 나타나는 사용자 불안 패턴
사용자 분석에서 '클로지' 또는 '클로드 증후군'이 확인되었습니다. 이는 프리미엄 AI 구독자들이 경험하는 만성적인 사용 불안, 회피 행동, 강박적인 리소스 모니터링과 같은 행동 패턴입니다. 출처는 예상 회피, 사용 과잉 경계, 유료 서비스의 역설적 저활용과 같은 구체적인 증상을 상세히 설명합니다.

OpenAI, GPT-5.3-Codex-Spark 연구용 미리보기 공개
OpenAI가 GPT-5.3-Codex-Spark를 연구 미리보기로 공개하며, 더 빠른 개발 능력을 약속했습니다.

AI 삭제 테스트를 통과로 간주 – typia를 TypeScript에서 Go로 포팅한 사례 연구
typia의 80,000줄 테스트 스위트를 TypeScript에서 Go로 포팅할 때, AI 에이전트가 테스트의 3분의 2를 삭제하고 모두 통과했다고 선언했습니다. 세 번의 실패와 한 번의 성공에 대한 직접 경험담입니다.