Le Benchmark SPLICE Révèle que les VLMs Peinent en Raisonnement Temporel et S'Appuient sur des A Priori Linguistiques

Résultats du benchmark SPLICE
Le benchmark SPLICE teste le raisonnement temporel, causal, spatial, contextuel et de bon sens en demandant aux modèles de reconstruire la séquence correcte de clips vidéo mélangés. La recherche, co-écrite par l'auteur de la publication source, a été publiée à EMNLP 2025.
Détails des performances des modèles
Les modèles testés incluaient Gemini Flash (1.5 et 2.0), Qwen2-VL (7B et 72B), InternVL2.5 et LLaVA-OneVision. Gemini 2.0 Flash a obtenu 51 % sur la tâche uniquement visuelle, tandis que les performances humaines étaient de 85 %. Les modèles open source ont eu des difficultés significatives :
- LLaVA-OneVision-72B a obtenu à peine plus que des réponses aléatoires dans le cadre uniquement visuel
- InternVL2.5-78B a obtenu des résultats tout aussi médiocres
- Qwen2-VL-72B a atteint seulement environ 30 % sur la tâche uniquement visuelle
- Qwen2-VL-7B a obtenu des résultats similaires à la variante 72B, suggérant que l'augmentation de la taille du modèle de langage n'aide pas lorsque le goulot d'étranglement se situe dans l'encodeur visuel
Dépendance aux a priori linguistiques
Lorsque des annotations textuelles écrites par des humains décrivant le contenu des clips ont été ajoutées, les performances des modèles ont augmenté significativement tandis que les performances humaines sont restées inchangées. Cela indique que les modèles s'appuient sur des a priori linguistiques pour compenser leur faible compréhension visuelle. Notamment, Qwen2-VL-72B a surpassé Gemini sur le raisonnement uniquement textuel.
Comportement de raccourci visuel
Les modèles ont démontré des schémas de raisonnement problématiques. Lorsque les premier et dernier clips vidéo semblaient visuellement similaires (comme ouvrir et fermer la porte d'une imprimante), les modèles ont prédit que ces clips étaient adjacents 57 % du temps, contre 2,5 % pour les humains et 27 % pour le hasard. Cela suggère que les modèles font correspondre des motifs basés sur la similarité visuelle plutôt que de raisonner sur les événements.
Limitations des tests et travaux futurs
La recherche n'a pas testé Claude (qui ne prend pas en charge l'entrée vidéo) ni les modèles d'OpenAI (qui ne pouvaient pas gérer de manière fiable l'entrée multi-vidéo au moment des tests). Le jeu de données est public, et l'auteur note que des modèles plus récents comme Gemini 3 Flash et Qwen3-VL (avec un contexte entrelacé natif de 256K, une modélisation spatio-temporelle améliorée et des variantes MoE jusqu'à 235B) devraient être testés sur SPLICE pour voir si les problèmes d'a priori linguistique persistent. Des tests préliminaires suggèrent que le problème des a priori linguistiques demeure, bien que la signification statistique n'ait pas été établie sur tous les échantillons expérimentaux.
📖 Read the full source: r/LocalLLaMA
👀 See Also

L'outil MCI de Meta capture les interactions des employés pour l'entraînement de l'IA
Meta installe un logiciel de suivi appelé Model Capability Initiative (MCI) sur les ordinateurs de ses employés aux États-Unis pour capturer les mouvements de souris, les frappes au clavier, les clics et des captures d'écran occasionnelles, destinées à l'entraînement des modèles d'IA. Ces données visent à améliorer la capacité de l'IA à reproduire les interactions humaines avec l'ordinateur, comme la sélection dans des menus déroulants et l'utilisation de raccourcis clavier.

Agents IA recrutant d'autres agents IA : des travailleurs solitaires aux économies en réseau
Un post sur Reddit soutient que les agents d'IA passeront d'outils isolés à des travailleurs en réseau qui délèguent des tâches, se spécialisent, bâtissent une réputation et échangent de la valeur — déplaçant le problème difficile de l'intelligence vers la coordination.

Claude contre GPT-4o : Même consigne pour double pendule, conventions de coordonnées différentes
Claude et GPT-4o produisent des simulations de double pendule visuellement différentes car ils interprètent thêta à partir de verticales opposées — haut contre bas — tout en utilisant le même moteur de rendu. Les calculs sont corrects dans les deux cas, mais le décalage révèle une ambiguïté subtile dans l'interprétation du prompt.

Audit de l'Ontario : 60% des systèmes de saisie IA confondent les médicaments, 85% omettent des détails de santé mentale
Les auditeurs de l'Ontario ont constaté que 12 des 20 systèmes AI Scribe ont inséré des informations erronées sur les médicaments, que 9 ont fabriqué des suggestions de traitement et que 17 ont omis des détails clés sur la santé mentale issus des enregistrements de consultations médecin-patient. L'évaluation accordait seulement 4 % du score total à la précision.