VLM 시간적 추론 실패: SPLICE 벤치마크 결과 vs 인간 85%

SPLICE 벤치마크 결과

SPLICE 벤치마크는 모델들이 섞인 비디오 클립의 올바른 순서를 재구성하도록 하여 시간적, 인과적, 공간적, 맥락적, 상식적 추론 능력을 테스트합니다. 이 연구는 원본 게시물 작성자가 공동 저자로 참여했으며, EMNLP 2025에서 발표되었습니다.

모델 성능 상세

테스트된 모델에는 Gemini Flash (1.5 및 2.0), Qwen2-VL (7B 및 72B), InternVL2.5, LLaVA-OneVision이 포함되었습니다. Gemini 2.0 Flash는 비전 전용 과제에서 51%의 점수를 기록했으며, 인간의 성능은 85%였습니다. 오픈소스 모델들은 특히 어려움을 겪었습니다:

LLaVA-OneVision-72B는 비전 전용 설정에서 무작위 추측 수준을 간신히 넘는 점수를 기록했습니다
InternVL2.5-78B도 비슷하게 낮은 성능을 보였습니다
Qwen2-VL-72B는 비전 전용에서 약 30%에 그쳤습니다
Qwen2-VL-7B는 72B 변형과 비슷한 성능을 보였는데, 이는 언어 모델을 확장하는 것이 비전 인코더의 병목 현상이 문제일 때 도움이 되지 않음을 시사합니다

언어 사전 지식 의존성

클립 내용을 설명하는 사람이 작성한 텍스트 주석이 추가되었을 때, 모델 성능은 크게 향상된 반면 인간 성능은 변함없이 유지되었습니다. 이는 모델들이 약한 시각적 이해를 보완하기 위해 언어 사전 지식에 의존함을 나타냅니다. 특히, Qwen2-VL-72B는 텍스트 전용 추론에서 Gemini를 능가했습니다.

시각적 지름길 행동

모델들은 문제가 있는 추론 패턴을 보였습니다. 첫 번째와 마지막 비디오 클립이 시각적으로 유사할 때(예: 프린터 문 열기와 닫기), 모델들은 그 클립들이 인접하다고 예측한 비율이 57%였으며, 이는 인간의 2.5%, 무작위 확률 27%와 비교됩니다. 이는 모델들이 사건에 대해 추론하기보다 시각적 유사성에 대한 패턴 매칭을 하고 있음을 시사합니다.

테스트 한계 및 향후 연구

이 연구는 Claude(비디오 입력을 지원하지 않음)나 OpenAI 모델들(테스트 당시 다중 비디오 입력을 안정적으로 처리할 수 없었음)을 테스트하지 않았습니다. 데이터셋은 공개되어 있으며, 게시물 작성자는 Gemini 3 Flash와 Qwen3-VL(기본 256K 인터리브 컨텍스트, 향상된 시공간 모델링, 최대 235B의 MoE 변형 포함)과 같은 최신 모델들이 SPLICE에서 테스트되어 언어 사전 지식 문제가 지속되는지 확인해야 한다고 언급했습니다. 예비 테스트는 언어 사전 지식 문제가 여전히 존재할 수 있음을 시사하지만, 모든 실험 샘플에 걸쳐 통계적 유의성이 확립되지는 않았습니다.

📖 Read the full source: r/LocalLLaMA