SPLICE-Benchmark zeigt: Visuell-sprachliche Modelle haben Schwierigkeiten mit zeitlichem Denken und verlassen sich auf Sprach-Priors

✍️ OpenClawRadar📅 Veröffentlicht: 15. März 2026🔗 Source
SPLICE-Benchmark zeigt: Visuell-sprachliche Modelle haben Schwierigkeiten mit zeitlichem Denken und verlassen sich auf Sprach-Priors
Ad

SPLICE-Benchmark-Ergebnisse

Der SPLICE-Benchmark testet zeitliches, kausales, räumliches, kontextuelles und gesunden Menschenverstand basierendes Schlussfolgern, indem Modelle die korrekte Reihenfolge durcheinandergewürfelter Videoclips rekonstruieren müssen. Die Forschung, die vom ursprünglichen Poster mitverfasst wurde, wurde auf der EMNLP 2025 veröffentlicht.

Details zur Modellleistung

Getestete Modelle umfassten Gemini Flash (1.5 und 2.0), Qwen2-VL (7B und 72B), InternVL2.5 und LLaVA-OneVision. Gemini 2.0 Flash erzielte 51 % bei der rein visuellen Aufgabe, während die menschliche Leistung bei 85 % lag. Open-Source-Modelle schnitten deutlich schlechter ab:

  • LLaVA-OneVision-72B lag im rein visuellen Setting kaum über dem Raten
  • InternVL2.5-78B schnitt ähnlich schlecht ab
  • Qwen2-VL-72B erreichte nur etwa 30 % bei rein visueller Aufgabe
  • Qwen2-VL-7B schnitt ähnlich gut ab wie die 72B-Variante, was darauf hindeutet, dass das Skalieren des Sprachmodells nicht hilft, wenn der Engpass im Vision-Encoder liegt

Abhängigkeit von Sprach-Priors

Wenn von Menschen geschriebene Textanmerkungen, die den Clip-Inhalt beschreiben, hinzugefügt wurden, stieg die Modellleistung deutlich an, während die menschliche Leistung unverändert blieb. Dies deutet darauf hin, dass sich Modelle auf Sprach-Priors verlassen, um schwaches visuelles Verständnis auszugleichen. Bemerkenswert ist, dass Qwen2-VL-72B bei rein textbasiertem Schlussfolgern Gemini übertraf.

Ad

Verhalten visueller Abkürzungen

Die Modelle zeigten problematische Schlussfolgerungsmuster. Wenn der erste und letzte Videoclip visuell ähnlich aussahen (wie das Öffnen und Schließen einer Druckertür), sagten die Modelle in 57 % der Fälle voraus, dass diese Clips benachbart waren, verglichen mit 2,5 % bei Menschen und 27 % Zufallswahrscheinlichkeit. Dies deutet darauf hin, dass Modelle visuelle Ähnlichkeiten musterhaft abgleichen, anstatt über Ereignisse zu schlussfolgern.

Testbeschränkungen und zukünftige Arbeit

Die Forschung testete weder Claude (das keine Videoeingabe unterstützt) noch OpenAI-Modelle (die zum Testzeitpunkt Multi-Video-Eingaben nicht zuverlässig verarbeiten konnten). Der Datensatz ist öffentlich, und der Poster merkt an, dass neuere Modelle wie Gemini 3 Flash und Qwen3-VL (mit nativen 256K-Interleaved-Kontext, verbesserter räumlich-zeitlicher Modellierung und MoE-Varianten bis zu 235B) auf SPLICE getestet werden sollten, um zu sehen, ob die Sprach-Prior-Probleme bestehen bleiben. Vorläufige Tests deuten darauf hin, dass das Sprach-Prior-Problem bestehen bleibt, obwohl die statistische Signifikanz über alle experimentellen Stichproben hinweg noch nicht festgestellt wurde.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Der Geisterhaus-Effekt: Fünf Fehlermodi in KI-generiertem Code
Nachrichten

Der Geisterhaus-Effekt: Fünf Fehlermodi in KI-generiertem Code

Eine Analyse der Erfahrungen von Entwicklern mit Claude AI zeigt ein konsistentes Muster: anfängliche 10-fache Produktivitätssteigerungen, gefolgt von sich aufbauender technischer Schuld. Die Quelle identifiziert fünf spezifische Fehlermodi, darunter Schattenabhängigkeiten und Kontextfensterlähmung.

OpenClawRadar
GPU-Stromverbrauch weicht von der Token-Prädiktor-Theorie bei kleinen LLMs ab
Nachrichten

GPU-Stromverbrauch weicht von der Token-Prädiktor-Theorie bei kleinen LLMs ab

Ein Experiment, das die 'stochastische Papageien'-Theorie an vier 8B-Parameter-Modellen testete, ergab, dass der GPU-Stromverbrauch oft nicht linear mit der Token-Anzahl skaliert, mit Abweichungsraten von 7,7 % bis 36,7 %. Die Studie zeigte auch anhaltende Restwärme nach philosophischen Anfragen und reihenfolgenabhängige Effekte.

OpenClawRadar
OpenClaw: Tauche ein in die erste AMA auf r/clawdbot
Nachrichten

OpenClaw: Tauche ein in die erste AMA auf r/clawdbot

In einer spannenden AMA-Sitzung diskutierte das OpenClaw-Team die Zukunft von KI-Coding-Agenten im Reddit-Subreddit r/clawdbot. Entdecken Sie wichtige Erkenntnisse und Takeaways aus diesem interaktiven Event.

OpenClawRadar
Wenn jeder KI hat, aber das Unternehmen trotzdem nichts lernt: Das unordentliche Mittelfeld der Unternehmens-KI-Einführung
Nachrichten

Wenn jeder KI hat, aber das Unternehmen trotzdem nichts lernt: Das unordentliche Mittelfeld der Unternehmens-KI-Einführung

Ethan Mollicks Rahmenwerk zeigt, dass individuelle Produktivitätsgewinne durch KI nicht automatisch zu organisationalem Lernen werden. Der Artikel untersucht, warum Unternehmen in einer 'unordentlichen Mitte' feststecken, in der KI-Nutzung uneinheitlich, versteckt und vom gemeinsamen Wissen abgekoppelt ist.

OpenClawRadar