Benchmark SPLICE: VLMs Falham em Raciocínio Temporal

Resultados do Benchmark SPLICE

O benchmark SPLICE testa raciocínio temporal, causal, espacial, contextual e de senso comum, fazendo com que os modelos reconstruam a sequência correta de clipes de vídeo embaralhados. A pesquisa, coautoria do autor original, foi publicada na EMNLP 2025.

Detalhes do Desempenho dos Modelos

Os modelos testados incluíram Gemini Flash (1.5 e 2.0), Qwen2-VL (7B e 72B), InternVL2.5 e LLaVA-OneVision. O Gemini 2.0 Flash obteve 51% na tarefa apenas visual, enquanto o desempenho humano foi de 85%. Modelos de código aberto tiveram dificuldades significativas:

LLaVA-OneVision-72B pontuou pouco acima do acaso aleatório na configuração apenas visual
InternVL2.5-78B teve desempenho igualmente fraco
Qwen2-VL-72B alcançou apenas cerca de 30% no modo apenas visual
Qwen2-VL-7B teve desempenho equivalente à variante de 72B, sugerindo que escalar o modelo de linguagem não ajuda quando o gargalo está no codificador visual

Dependência de Prioridades Linguísticas

Quando anotações de texto escritas por humanos descrevendo o conteúdo dos clipes foram adicionadas, o desempenho dos modelos aumentou significativamente, enquanto o desempenho humano permaneceu inalterado. Isso indica que os modelos dependem de prioridades linguísticas para compensar a compreensão visual fraca. Notavelmente, o Qwen2-VL-72B superou o Gemini no raciocínio apenas com texto.

Comportamento de Atalhos Visuais

Os modelos demonstraram padrões de raciocínio problemáticos. Quando o primeiro e o último clipe de vídeo pareciam visualmente semelhantes (como abrir e fechar a porta de uma impressora), os modelos previram que esses clipes eram adjacentes 57% das vezes, comparado a 2,5% para humanos e 27% de chance aleatória. Isso sugere que os modelos estão correspondendo padrões de similaridade visual em vez de raciocinar sobre eventos.

Limitações dos Testes e Trabalhos Futuros

A pesquisa não testou o Claude (que não suporta entrada de vídeo) ou modelos da OpenAI (que não conseguiam lidar com entrada de múltiplos vídeos de forma confiável no momento dos testes). O conjunto de dados é público, e o autor observa que modelos mais novos como o Gemini 3 Flash e Qwen3-VL (com contexto intercalado nativo de 256K, modelagem espaço-temporal aprimorada e variantes MoE de até 235B) devem ser testados no SPLICE para ver se os problemas de prioridades linguísticas persistem. Testes preliminares sugerem que o problema da prioridade linguística permanece, embora a significância estatística não tenha sido estabelecida em todas as amostras experimentais.

📖 Read the full source: r/LocalLLaMA

O Benchmark SPLICE Revela que os VLMs Têm Dificuldade com o Raciocínio Temporal e Dependem de Preconceitos Linguísticos

Resultados do Benchmark SPLICE

Detalhes do Desempenho dos Modelos

Dependência de Prioridades Linguísticas

Comportamento de Atalhos Visuais

Limitações dos Testes e Trabalhos Futuros

👀 See Also

Benchmark do Apple Silicon: Desempenho do Qwen3-VL em M3, M4 e M5 Max para Classificação com Vision LLM

A Microsoft lança o modelo multimodal Phi-4-reasoning-vision-15B com insights de treinamento.

Ohio Suspende Isenção Fiscal para Data Centers: Pressões de Custos de IA Aumentam para Empresas de Tecnologia

Atualizações do Claude Code Engineer: Pergunta ao Usuário em Markdown, Ganchos HTTP, Novas Habilidades