Benchmark SPLICE: VLM Fallan en Razonamiento Temporal (51% vs 85%)

Resultados del Benchmark SPLICE

El benchmark SPLICE evalúa el razonamiento temporal, causal, espacial, contextual y de sentido común al hacer que los modelos reconstruyan la secuencia correcta de clips de video mezclados. La investigación, coautorada por el creador de la publicación original, se publicó en EMNLP 2025.

Detalles del Rendimiento de los Modelos

Los modelos evaluados incluyeron Gemini Flash (1.5 y 2.0), Qwen2-VL (7B y 72B), InternVL2.5 y LLaVA-OneVision. Gemini 2.0 Flash obtuvo un 51% en la tarea solo de visión, mientras que el rendimiento humano fue del 85%. Los modelos de código abierto tuvieron dificultades significativas:

LLaVA-OneVision-72B apenas superó la adivinanza aleatoria en la configuración solo de visión
InternVL2.5-78B tuvo un rendimiento igualmente bajo
Qwen2-VL-72B alcanzó solo alrededor del 30% en solo visión
Qwen2-VL-7B tuvo un rendimiento similar a la variante de 72B, lo que sugiere que escalar el modelo de lenguaje no ayuda cuando el cuello de botella está en el codificador visual

Dependencia de Prioridades Lingüísticas

Cuando se agregaron anotaciones de texto escritas por humanos que describían el contenido de los clips, el rendimiento de los modelos aumentó significativamente mientras que el rendimiento humano permaneció sin cambios. Esto indica que los modelos dependen de prioridades lingüísticas para compensar la débil comprensión visual. Notablemente, Qwen2-VL-72B superó a Gemini en razonamiento solo con texto.

Comportamiento de Atajos Visuales

Los modelos demostraron patrones de razonamiento problemáticos. Cuando el primer y último clip de video se veían visualmente similares (como abrir y cerrar la puerta de una impresora), los modelos predijeron que esos clips eran adyacentes el 57% de las veces, en comparación con el 2,5% para los humanos y el 27% de probabilidad aleatoria. Esto sugiere que los modelos están haciendo coincidencia de patrones basada en similitud visual en lugar de razonar sobre eventos.

Limitaciones de las Pruebas y Trabajo Futuro

La investigación no probó Claude (que no admite entrada de video) ni modelos de OpenAI (que no podían manejar entrada de múltiples videos de manera confiable en el momento de las pruebas). El conjunto de datos es público, y el creador de la publicación señala que modelos más nuevos como Gemini 3 Flash y Qwen3-VL (con contexto entrelazado nativo de 256K, modelado espacio-temporal mejorado y variantes MoE de hasta 235B) deberían probarse en SPLICE para ver si persisten los problemas de prioridades lingüísticas. Las pruebas preliminares sugieren que el problema de prioridades lingüísticas persiste, aunque no se ha establecido significancia estadística en todas las muestras experimentales.

📖 Read the full source: r/LocalLLaMA

El Benchmark SPLICE Revela que los VLM Luchan con el Razonamiento Temporal y Dependen de Prioridades Lingüísticas

Resultados del Benchmark SPLICE

Detalles del Rendimiento de los Modelos

Dependencia de Prioridades Lingüísticas

Comportamiento de Atajos Visuales

Limitaciones de las Pruebas y Trabajo Futuro

👀 Ver también

Agentes de IA que no reduzcan los costos de mantenimiento hundirán a tu equipo

GitHub Copilot se muda a precios basados en uso: el fin de la codificación AI subvencionada

Datos de Uso de la API de Claude Muestran el Impacto de los Nuevos Límites en Usuarios del Plan Máximo

Por qué la activación de dirección de Anthropic tiene problemas para generar JSON válido.