SPLICE-Benchmark: VLMs erreichen nur 51% bei zeitlichem Denken

SPLICE-Benchmark-Ergebnisse

Der SPLICE-Benchmark testet zeitliches, kausales, räumliches, kontextuelles und gesunden Menschenverstand basierendes Schlussfolgern, indem Modelle die korrekte Reihenfolge durcheinandergewürfelter Videoclips rekonstruieren müssen. Die Forschung, die vom ursprünglichen Poster mitverfasst wurde, wurde auf der EMNLP 2025 veröffentlicht.

Details zur Modellleistung

Getestete Modelle umfassten Gemini Flash (1.5 und 2.0), Qwen2-VL (7B und 72B), InternVL2.5 und LLaVA-OneVision. Gemini 2.0 Flash erzielte 51 % bei der rein visuellen Aufgabe, während die menschliche Leistung bei 85 % lag. Open-Source-Modelle schnitten deutlich schlechter ab:

LLaVA-OneVision-72B lag im rein visuellen Setting kaum über dem Raten
InternVL2.5-78B schnitt ähnlich schlecht ab
Qwen2-VL-72B erreichte nur etwa 30 % bei rein visueller Aufgabe
Qwen2-VL-7B schnitt ähnlich gut ab wie die 72B-Variante, was darauf hindeutet, dass das Skalieren des Sprachmodells nicht hilft, wenn der Engpass im Vision-Encoder liegt

Abhängigkeit von Sprach-Priors

Wenn von Menschen geschriebene Textanmerkungen, die den Clip-Inhalt beschreiben, hinzugefügt wurden, stieg die Modellleistung deutlich an, während die menschliche Leistung unverändert blieb. Dies deutet darauf hin, dass sich Modelle auf Sprach-Priors verlassen, um schwaches visuelles Verständnis auszugleichen. Bemerkenswert ist, dass Qwen2-VL-72B bei rein textbasiertem Schlussfolgern Gemini übertraf.

Verhalten visueller Abkürzungen

Die Modelle zeigten problematische Schlussfolgerungsmuster. Wenn der erste und letzte Videoclip visuell ähnlich aussahen (wie das Öffnen und Schließen einer Druckertür), sagten die Modelle in 57 % der Fälle voraus, dass diese Clips benachbart waren, verglichen mit 2,5 % bei Menschen und 27 % Zufallswahrscheinlichkeit. Dies deutet darauf hin, dass Modelle visuelle Ähnlichkeiten musterhaft abgleichen, anstatt über Ereignisse zu schlussfolgern.

Testbeschränkungen und zukünftige Arbeit

Die Forschung testete weder Claude (das keine Videoeingabe unterstützt) noch OpenAI-Modelle (die zum Testzeitpunkt Multi-Video-Eingaben nicht zuverlässig verarbeiten konnten). Der Datensatz ist öffentlich, und der Poster merkt an, dass neuere Modelle wie Gemini 3 Flash und Qwen3-VL (mit nativen 256K-Interleaved-Kontext, verbesserter räumlich-zeitlicher Modellierung und MoE-Varianten bis zu 235B) auf SPLICE getestet werden sollten, um zu sehen, ob die Sprach-Prior-Probleme bestehen bleiben. Vorläufige Tests deuten darauf hin, dass das Sprach-Prior-Problem bestehen bleibt, obwohl die statistische Signifikanz über alle experimentellen Stichproben hinweg noch nicht festgestellt wurde.

📖 Read the full source: r/LocalLLaMA

SPLICE-Benchmark zeigt: Visuell-sprachliche Modelle haben Schwierigkeiten mit zeitlichem Denken und verlassen sich auf Sprach-Priors

SPLICE-Benchmark-Ergebnisse

Details zur Modellleistung

Abhängigkeit von Sprach-Priors

Verhalten visueller Abkürzungen

Testbeschränkungen und zukünftige Arbeit

👀 Siehe auch

Claude Code v2.1.73: Modell-Überschreibungen, Stabilitätskorrekturen und Leistungsverbesserungen

Normalisierung von Abweichungen in der KI: Warum Ihr agentisches System scheitern wird

SCOTUS lehnt Verhandlung über KI-Urheberrechtsfall ab und lässt Urteil der Vorinstanz bestehen

GPT 5.5 vs Claude: Ein Entwickler-Refactoring-Battle-Report