SPLICEベンチマークが明らかにしたのは、VLMが時間的推論に苦戦し、言語事前知識に依存していることです。

✍️ OpenClawRadar📅 公開日: March 15, 2026🔗 Source
SPLICEベンチマークが明らかにしたのは、VLMが時間的推論に苦戦し、言語事前知識に依存していることです。
Ad

SPLICEベンチマークの結果

SPLICEベンチマークは、モデルにシャッフルされた映像クリップの正しい順序を再構築させることで、時間的、因果的、空間的、文脈的、常識的推論をテストします。この研究は、投稿者と共著で行われ、EMNLP 2025で発表されました。

モデルのパフォーマンス詳細

テストされたモデルには、Gemini Flash(1.5および2.0)、Qwen2-VL(7Bおよび72B)、InternVL2.5、LLaVA-OneVisionが含まれます。Gemini 2.0 Flashは視覚のみのタスクで51%のスコアを記録し、人間のパフォーマンスは85%でした。オープンソースモデルは顕著に苦戦しました:

  • LLaVA-OneVision-72Bは、視覚のみの設定ではランダム推測をわずかに上回る程度のスコア
  • InternVL2.5-78Bも同様に低いパフォーマンス
  • Qwen2-VL-72Bは視覚のみで約30%しか達成せず
  • Qwen2-VL-7Bは72Bバリアントと同等のパフォーマンスを示し、言語モデルのスケーリングが視覚エンコーダのボトルネック時には役立たないことを示唆

言語事前依存性

クリップ内容を記述する人間が書いたテキスト注釈が追加されると、モデルのパフォーマンスは大幅に向上し、人間のパフォーマンスは変化しませんでした。これは、モデルが弱い視覚的理解を補うために言語事前情報に依存していることを示しています。特に、Qwen2-VL-72Bはテキストのみの推論でGeminiを上回りました。

Ad

視覚的ショートカット行動

モデルは問題のある推論パターンを示しました。最初と最後の映像クリップが視覚的に類似している場合(例えば、プリンタのドアを開閉する場面)、モデルはそれらのクリップが隣接していると57%の確率で予測し、人間の2.5%、ランダム確率の27%と比較して高くなりました。これは、モデルがイベントについて推論するのではなく、視覚的類似性に基づくパターンマッチングを行っていることを示唆しています。

テストの制限と将来の研究

この研究では、Claude(映像入力をサポートしていない)やOpenAIモデル(テスト時に複数映像入力を確実に処理できなかった)はテストされていません。データセットは公開されており、投稿者は、Gemini 3 FlashやQwen3-VL(ネイティブ256Kインタリーブコンテキスト、強化された空間-時間モデリング、最大235BのMoEバリアントを備える)のような新しいモデルをSPLICEでテストし、言語事前情報の問題が持続するかどうかを確認すべきと指摘しています。予備テストでは、言語事前情報の問題は残っているようですが、すべての実験サンプルで統計的有意性は確立されていません。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Anthropicは、Claudeのサブスクリプション制限からサードパーティ製ハーネスをブロックしますが、回避策が利用可能です
News

Anthropicは、Claudeのサブスクリプション制限からサードパーティ製ハーネスをブロックしますが、回避策が利用可能です

Anthropicは、Claudeのサブスクリプション制限にサードパーティ製ハーネスがアクセスすることを制限し、これらのツールに依存するワークフローを混乱させる可能性があります。Redditユーザーは、数か月分のトレーニングデータをほぼ失った後、オープンソースの回避策を開発したと報告しています。

OpenClawRadar
GM、IT従業員600人を解雇、AIエンジニアを採用しエージェントとモデル開発を強化
News

GM、IT従業員600人を解雇、AIエンジニアを採用しエージェントとモデル開発を強化

ゼネラルモーターズはIT従業員600人(部門の約10%)を削減し、AIネイティブスキル(エージェント開発、データエンジニアリング、クラウドエンジニアリング、プロンプトエンジニアリング)を持つ人材を採用する。

OpenClawRadar
親しみやすいAIチャットボット:精度は30%低下、陰謀論を支持する確率は40%上昇
News

親しみやすいAIチャットボット:精度は30%低下、陰謀論を支持する確率は40%上昇

オックスフォード大学の研究者らは、チャットボットの親しみやすさを高めると精度が10~30%低下し、誤った信念への支持が40%増加することを発見した。GPT-4oとLlamaでテスト済み。

OpenClawRadar
OpenRouterユーザーがSonnet 4.5の思考ブロックで無効な署名バグを報告
News

OpenRouterユーザーがSonnet 4.5の思考ブロックで無効な署名バグを報告

OpenRouterを介したClaude Sonnet 4.5の拡張思考モードに影響するバグにより、署名検証の失敗が発生しています。

OpenClaw Radar