VLM時間的推論に苦戦：Gemini 2.0 Flash精度51% vs 人間85%

SPLICEベンチマークの結果

SPLICEベンチマークは、モデルにシャッフルされた映像クリップの正しい順序を再構築させることで、時間的、因果的、空間的、文脈的、常識的推論をテストします。この研究は、投稿者と共著で行われ、EMNLP 2025で発表されました。

モデルのパフォーマンス詳細

テストされたモデルには、Gemini Flash（1.5および2.0）、Qwen2-VL（7Bおよび72B）、InternVL2.5、LLaVA-OneVisionが含まれます。Gemini 2.0 Flashは視覚のみのタスクで51%のスコアを記録し、人間のパフォーマンスは85%でした。オープンソースモデルは顕著に苦戦しました：

LLaVA-OneVision-72Bは、視覚のみの設定ではランダム推測をわずかに上回る程度のスコア
InternVL2.5-78Bも同様に低いパフォーマンス
Qwen2-VL-72Bは視覚のみで約30%しか達成せず
Qwen2-VL-7Bは72Bバリアントと同等のパフォーマンスを示し、言語モデルのスケーリングが視覚エンコーダのボトルネック時には役立たないことを示唆

言語事前依存性

クリップ内容を記述する人間が書いたテキスト注釈が追加されると、モデルのパフォーマンスは大幅に向上し、人間のパフォーマンスは変化しませんでした。これは、モデルが弱い視覚的理解を補うために言語事前情報に依存していることを示しています。特に、Qwen2-VL-72Bはテキストのみの推論でGeminiを上回りました。

視覚的ショートカット行動

モデルは問題のある推論パターンを示しました。最初と最後の映像クリップが視覚的に類似している場合（例えば、プリンタのドアを開閉する場面）、モデルはそれらのクリップが隣接していると57%の確率で予測し、人間の2.5%、ランダム確率の27%と比較して高くなりました。これは、モデルがイベントについて推論するのではなく、視覚的類似性に基づくパターンマッチングを行っていることを示唆しています。

テストの制限と将来の研究

この研究では、Claude（映像入力をサポートしていない）やOpenAIモデル（テスト時に複数映像入力を確実に処理できなかった）はテストされていません。データセットは公開されており、投稿者は、Gemini 3 FlashやQwen3-VL（ネイティブ256Kインタリーブコンテキスト、強化された空間-時間モデリング、最大235BのMoEバリアントを備える）のような新しいモデルをSPLICEでテストし、言語事前情報の問題が持続するかどうかを確認すべきと指摘しています。予備テストでは、言語事前情報の問題は残っているようですが、すべての実験サンプルで統計的有意性は確立されていません。

📖 Read the full source: r/LocalLLaMA