El Benchmark SPLICE Revela que los VLM Luchan con el Razonamiento Temporal y Dependen de Prioridades Lingüísticas

✍️ OpenClawRadar📅 Publicado: 15 de marzo de 2026🔗 Source
El Benchmark SPLICE Revela que los VLM Luchan con el Razonamiento Temporal y Dependen de Prioridades Lingüísticas
Ad

Resultados del Benchmark SPLICE

El benchmark SPLICE evalúa el razonamiento temporal, causal, espacial, contextual y de sentido común al hacer que los modelos reconstruyan la secuencia correcta de clips de video mezclados. La investigación, coautorada por el creador de la publicación original, se publicó en EMNLP 2025.

Detalles del Rendimiento de los Modelos

Los modelos evaluados incluyeron Gemini Flash (1.5 y 2.0), Qwen2-VL (7B y 72B), InternVL2.5 y LLaVA-OneVision. Gemini 2.0 Flash obtuvo un 51% en la tarea solo de visión, mientras que el rendimiento humano fue del 85%. Los modelos de código abierto tuvieron dificultades significativas:

  • LLaVA-OneVision-72B apenas superó la adivinanza aleatoria en la configuración solo de visión
  • InternVL2.5-78B tuvo un rendimiento igualmente bajo
  • Qwen2-VL-72B alcanzó solo alrededor del 30% en solo visión
  • Qwen2-VL-7B tuvo un rendimiento similar a la variante de 72B, lo que sugiere que escalar el modelo de lenguaje no ayuda cuando el cuello de botella está en el codificador visual

Dependencia de Prioridades Lingüísticas

Cuando se agregaron anotaciones de texto escritas por humanos que describían el contenido de los clips, el rendimiento de los modelos aumentó significativamente mientras que el rendimiento humano permaneció sin cambios. Esto indica que los modelos dependen de prioridades lingüísticas para compensar la débil comprensión visual. Notablemente, Qwen2-VL-72B superó a Gemini en razonamiento solo con texto.

Ad

Comportamiento de Atajos Visuales

Los modelos demostraron patrones de razonamiento problemáticos. Cuando el primer y último clip de video se veían visualmente similares (como abrir y cerrar la puerta de una impresora), los modelos predijeron que esos clips eran adyacentes el 57% de las veces, en comparación con el 2,5% para los humanos y el 27% de probabilidad aleatoria. Esto sugiere que los modelos están haciendo coincidencia de patrones basada en similitud visual en lugar de razonar sobre eventos.

Limitaciones de las Pruebas y Trabajo Futuro

La investigación no probó Claude (que no admite entrada de video) ni modelos de OpenAI (que no podían manejar entrada de múltiples videos de manera confiable en el momento de las pruebas). El conjunto de datos es público, y el creador de la publicación señala que modelos más nuevos como Gemini 3 Flash y Qwen3-VL (con contexto entrelazado nativo de 256K, modelado espacio-temporal mejorado y variantes MoE de hasta 235B) deberían probarse en SPLICE para ver si persisten los problemas de prioridades lingüísticas. Las pruebas preliminares sugieren que el problema de prioridades lingüísticas persiste, aunque no se ha establecido significancia estadística en todas las muestras experimentales.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Desarrolladores de Spotify aprovechando la IA para contribuciones sin código.
Noticias

Desarrolladores de Spotify aprovechando la IA para contribuciones sin código.

Los principales desarrolladores de Spotify no han escrito código desde diciembre debido a la IA, notablemente a través de su sistema interno 'Honk' que facilita implementaciones de código remotas y en tiempo real utilizando Claude Code.

OpenClawRadar
Anthropic elimina el código de Claude de la suscripción Pro para nuevos usuarios en prueba
Noticias

Anthropic elimina el código de Claude de la suscripción Pro para nuevos usuarios en prueba

Anthropic eliminó temporalmente el acceso a Claude Code de su plan de suscripción Pro de $20/mes para nuevos usuarios, cambiando las páginas de precios del sitio web y los documentos de soporte antes de revertir los cambios. La empresa lo describió como una 'pequeña prueba del 2% de las nuevas suscripciones de prosumidores'.

OpenClawRadar
Desbloqueando el potencial de OpenClaw: Integración con CodeX
Noticias

Desbloqueando el potencial de OpenClaw: Integración con CodeX

Descubre cómo los usuarios de OpenClaw pueden invocar sin problemas CodeX para mejorar la funcionalidad. Explora las discusiones de los usuarios y los métodos clave en este tutorial atractivo.

OpenClawRadar
Uber quema su presupuesto de IA 2026 en 4 meses con Claude Code — $500–$2k por ingeniero al mes
Noticias

Uber quema su presupuesto de IA 2026 en 4 meses con Claude Code — $500–$2k por ingeniero al mes

Uber gastó todo su presupuesto de IA de 2026 para abril en Claude Code y Cursor. Los costos mensuales de API alcanzaron entre $500 y $2,000 por ingeniero. El 95% de los ingenieros usan herramientas de IA mensualmente; el 70% del código comprometido es generado por IA.

OpenClawRadar