Benchmark SPLICE : VLMs à 51% vs 85% humain en raisonnement temporel

Résultats du benchmark SPLICE

Le benchmark SPLICE teste le raisonnement temporel, causal, spatial, contextuel et de bon sens en demandant aux modèles de reconstruire la séquence correcte de clips vidéo mélangés. La recherche, co-écrite par l'auteur de la publication source, a été publiée à EMNLP 2025.

Détails des performances des modèles

Les modèles testés incluaient Gemini Flash (1.5 et 2.0), Qwen2-VL (7B et 72B), InternVL2.5 et LLaVA-OneVision. Gemini 2.0 Flash a obtenu 51 % sur la tâche uniquement visuelle, tandis que les performances humaines étaient de 85 %. Les modèles open source ont eu des difficultés significatives :

LLaVA-OneVision-72B a obtenu à peine plus que des réponses aléatoires dans le cadre uniquement visuel
InternVL2.5-78B a obtenu des résultats tout aussi médiocres
Qwen2-VL-72B a atteint seulement environ 30 % sur la tâche uniquement visuelle
Qwen2-VL-7B a obtenu des résultats similaires à la variante 72B, suggérant que l'augmentation de la taille du modèle de langage n'aide pas lorsque le goulot d'étranglement se situe dans l'encodeur visuel

Dépendance aux a priori linguistiques

Lorsque des annotations textuelles écrites par des humains décrivant le contenu des clips ont été ajoutées, les performances des modèles ont augmenté significativement tandis que les performances humaines sont restées inchangées. Cela indique que les modèles s'appuient sur des a priori linguistiques pour compenser leur faible compréhension visuelle. Notamment, Qwen2-VL-72B a surpassé Gemini sur le raisonnement uniquement textuel.

Comportement de raccourci visuel

Les modèles ont démontré des schémas de raisonnement problématiques. Lorsque les premier et dernier clips vidéo semblaient visuellement similaires (comme ouvrir et fermer la porte d'une imprimante), les modèles ont prédit que ces clips étaient adjacents 57 % du temps, contre 2,5 % pour les humains et 27 % pour le hasard. Cela suggère que les modèles font correspondre des motifs basés sur la similarité visuelle plutôt que de raisonner sur les événements.

Limitations des tests et travaux futurs

La recherche n'a pas testé Claude (qui ne prend pas en charge l'entrée vidéo) ni les modèles d'OpenAI (qui ne pouvaient pas gérer de manière fiable l'entrée multi-vidéo au moment des tests). Le jeu de données est public, et l'auteur note que des modèles plus récents comme Gemini 3 Flash et Qwen3-VL (avec un contexte entrelacé natif de 256K, une modélisation spatio-temporelle améliorée et des variantes MoE jusqu'à 235B) devraient être testés sur SPLICE pour voir si les problèmes d'a priori linguistique persistent. Des tests préliminaires suggèrent que le problème des a priori linguistiques demeure, bien que la signification statistique n'ait pas été établie sur tous les échantillons expérimentaux.

📖 Read the full source: r/LocalLLaMA

Le Benchmark SPLICE Révèle que les VLMs Peinent en Raisonnement Temporel et S'Appuient sur des A Priori Linguistiques

Résultats du benchmark SPLICE

Détails des performances des modèles

Dépendance aux a priori linguistiques

Comportement de raccourci visuel

Limitations des tests et travaux futurs

👀 See Also

Le cours CS25 sur les Transformers de Stanford s'ouvre au public avec diffusion en direct

Anthropic analyse 1 million de conversations Claude : 6 % recherchent des conseils personnels, 9 % de taux de flagornerie, amélioré dans Opus 4.7

Glomz Octagon : Révisions de code multi-agents – 179 agents, 1 333 révisions et l'effet de réseau

Résultats de recherche sur la fiabilité des agents d'IA et les modèles de développement