O Benchmark SPLICE Revela que os VLMs Têm Dificuldade com o Raciocínio Temporal e Dependem de Preconceitos Linguísticos

✍️ OpenClawRadar📅 Publicado: March 15, 2026🔗 Source
O Benchmark SPLICE Revela que os VLMs Têm Dificuldade com o Raciocínio Temporal e Dependem de Preconceitos Linguísticos
Ad

Resultados do Benchmark SPLICE

O benchmark SPLICE testa raciocínio temporal, causal, espacial, contextual e de senso comum, fazendo com que os modelos reconstruam a sequência correta de clipes de vídeo embaralhados. A pesquisa, coautoria do autor original, foi publicada na EMNLP 2025.

Detalhes do Desempenho dos Modelos

Os modelos testados incluíram Gemini Flash (1.5 e 2.0), Qwen2-VL (7B e 72B), InternVL2.5 e LLaVA-OneVision. O Gemini 2.0 Flash obteve 51% na tarefa apenas visual, enquanto o desempenho humano foi de 85%. Modelos de código aberto tiveram dificuldades significativas:

  • LLaVA-OneVision-72B pontuou pouco acima do acaso aleatório na configuração apenas visual
  • InternVL2.5-78B teve desempenho igualmente fraco
  • Qwen2-VL-72B alcançou apenas cerca de 30% no modo apenas visual
  • Qwen2-VL-7B teve desempenho equivalente à variante de 72B, sugerindo que escalar o modelo de linguagem não ajuda quando o gargalo está no codificador visual

Dependência de Prioridades Linguísticas

Quando anotações de texto escritas por humanos descrevendo o conteúdo dos clipes foram adicionadas, o desempenho dos modelos aumentou significativamente, enquanto o desempenho humano permaneceu inalterado. Isso indica que os modelos dependem de prioridades linguísticas para compensar a compreensão visual fraca. Notavelmente, o Qwen2-VL-72B superou o Gemini no raciocínio apenas com texto.

Ad

Comportamento de Atalhos Visuais

Os modelos demonstraram padrões de raciocínio problemáticos. Quando o primeiro e o último clipe de vídeo pareciam visualmente semelhantes (como abrir e fechar a porta de uma impressora), os modelos previram que esses clipes eram adjacentes 57% das vezes, comparado a 2,5% para humanos e 27% de chance aleatória. Isso sugere que os modelos estão correspondendo padrões de similaridade visual em vez de raciocinar sobre eventos.

Limitações dos Testes e Trabalhos Futuros

A pesquisa não testou o Claude (que não suporta entrada de vídeo) ou modelos da OpenAI (que não conseguiam lidar com entrada de múltiplos vídeos de forma confiável no momento dos testes). O conjunto de dados é público, e o autor observa que modelos mais novos como o Gemini 3 Flash e Qwen3-VL (com contexto intercalado nativo de 256K, modelagem espaço-temporal aprimorada e variantes MoE de até 235B) devem ser testados no SPLICE para ver se os problemas de prioridades linguísticas persistem. Testes preliminares sugerem que o problema da prioridade linguística permanece, embora a significância estatística não tenha sido estabelecida em todas as amostras experimentais.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Anthropic Lança Canais Claude Code para Integração de Mensagens
News

Anthropic Lança Canais Claude Code para Integração de Mensagens

A Anthropic lançou os Claude Code Channels, permitindo que desenvolvedores enviem mensagens diretas para sessões do Claude Code a partir do Telegram ou Discord com acesso completo a ferramentas, incluindo edição de arquivos, execução de testes e operações git. O recurso requer um plano pago da Anthropic e suporta duas plataformas em comparação com as 20+ do OpenClaw.

OpenClawRadar
Crescimento do Ecossistema OpenClaw e Principais Agentes Mapeados
News

Crescimento do Ecossistema OpenClaw e Principais Agentes Mapeados

Um membro da comunidade mapeou a rápida expansão do ecossistema OpenClaw, observando mais de 230 mil estrelas no GitHub, mais de 116 mil membros no Discord e empresas emergentes em hospedagem gerenciada, roteamento de LLM e camadas de segurança dentro de 60 dias do lançamento.

OpenClawRadar
SenseNova-U1-8B-MoT: Modelo Nativo Multimodal de Código Aberto com Arquitetura NEO-Unify
News

SenseNova-U1-8B-MoT: Modelo Nativo Multimodal de Código Aberto com Arquitetura NEO-Unify

SenseNova lançou o SenseNova-U1-8B-MoT, um modelo multimodal nativo que elimina tanto o codificador visual quanto o VAE, usando a arquitetura NEO-Unify para compreensão, raciocínio e geração unificados. Ele se destaca em texto para infográficos, edição de imagens e geração intercalada de texto e imagem.

OpenClawRadar
Processo de Entrevista de Engenharia Habilitado por IA da Tolan
News

Processo de Entrevista de Engenharia Habilitado por IA da Tolan

A Tolan redesenhou sua entrevista de engenharia para refletir o trabalho diário com agentes de IA de codificação. Os candidatos têm algumas horas para construir um recurso a partir de uma especificação do Figma ou uma especificação curta, usando ferramentas de IA como Claude, Codex, Cursor ou Gemini.

OpenClawRadar