Бенчмарк SPLICE показывает, что визуально-языковые модели испытывают трудности с временными рассуждениями и полагаются на языковые пресуппозиции.

✍️ OpenClawRadar📅 Опубликовано: 15 марта 2026 г.🔗 Source
Бенчмарк SPLICE показывает, что визуально-языковые модели испытывают трудности с временными рассуждениями и полагаются на языковые пресуппозиции.
Ad

Результаты бенчмарка SPLICE

Бенчмарк SPLICE проверяет временное, причинно-следственное, пространственное, контекстуальное и логическое мышление, заставляя модели восстанавливать правильную последовательность перемешанных видеоклипов. Исследование, соавтором которого является автор исходного поста, было опубликовано на EMNLP 2025.

Подробности производительности моделей

Протестированные модели включали Gemini Flash (1.5 и 2.0), Qwen2-VL (7B и 72B), InternVL2.5 и LLaVA-OneVision. Gemini 2.0 Flash набрала 51% в задаче только на визуальной информации, в то время как человеческий результат составил 85%. Модели с открытым исходным кодом показали значительно более слабые результаты:

  • LLaVA-OneVision-72B едва превзошла случайное угадывание в настройке только на визуальной информации
  • InternVL2.5-78B показала схожий низкий результат
  • Qwen2-VL-72B достигла лишь около 30% в настройке только на визуальной информации
  • Qwen2-VL-7B показала результат на уровне 72B-варианта, что говорит о том, что масштабирование языковой модели не помогает, когда узким местом является визуальный энкодер

Зависимость от языковых приоритетов

Когда были добавлены написанные человеком текстовые аннотации, описывающие содержание клипов, производительность моделей значительно выросла, в то время как человеческий результат остался неизменным. Это указывает на то, что модели полагаются на языковые приоритеты, чтобы компенсировать слабое визуальное понимание. Примечательно, что Qwen2-VL-72B превзошла Gemini в рассуждениях только на тексте.

Ad

Поведение с визуальными «ярлыками»

Модели продемонстрировали проблемные паттерны рассуждений. Когда первый и последний видеоклипы выглядели визуально похожими (например, открытие и закрытие дверцы принтера), модели предсказывали, что эти клипы являются соседними, в 57% случаев, по сравнению с 2,5% у людей и 27% случайного шанса. Это говорит о том, что модели сопоставляют паттерны на основе визуального сходства, а не рассуждают о событиях.

Ограничения тестирования и будущая работа

Исследование не тестировало Claude (который не поддерживает видео-ввод) или модели OpenAI (которые не могли надёжно обрабатывать многовидео-ввод во время тестирования). Набор данных является публичным, и автор поста отмечает, что более новые модели, такие как Gemini 3 Flash и Qwen3-VL (с нативным контекстом 256K, улучшенным пространственно-временным моделированием и вариантами MoE до 235B), следует протестировать на SPLICE, чтобы увидеть, сохраняются ли проблемы с языковыми приоритетами. Предварительное тестирование предполагает, что проблема языкового приоритета сохраняется, хотя статистическая значимость ещё не установлена для всех экспериментальных выборок.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Миньоны Stripe: Одноразовые ИИ-агенты для программирования
Новости

Миньоны Stripe: Одноразовые ИИ-агенты для программирования

Миньоны – это однострочные AI-агенты кода Stripe, направленные на повышение продуктивности разработчиков за счет полного автоматизированного процесса с использованием LLM.

OpenClawRadar
OpenClaw проводит свое первое AMA: Взгляды на AI-кодирующих агентов
Новости

OpenClaw проводит свое первое AMA: Взгляды на AI-кодирующих агентов

OpenClaw, известная фигура в области AI-кодирования, провела свою первую AMA-сессию на Reddit. Обсуждение прояснило ее воздействие, планы на будущее и вызовы.

OpenClawRadar
Утечка данных Mercor: украдено 4 ТБ голосовых образцов и удостоверений личности – что могут сделать злоумышленники
Новости

Утечка данных Mercor: украдено 4 ТБ голосовых образцов и удостоверений личности – что могут сделать злоумышленники

4 ТБ голосовых записей, привязанных к удостоверениям личности, украдены у 40 000 подрядчиков Mercor. Злоумышленники могут клонировать голос из 15 секунд чистой записи и обходить голосовую верификацию в банках, совершать дипфейк-звонки и страховое мошенничество.

OpenClawRadar
Qwen3.5-122B-A10B-MINT-MLX работает плавно на M5 Pro с 64 ГБ оперативной памяти.
Новости

Qwen3.5-122B-A10B-MINT-MLX работает плавно на M5 Pro с 64 ГБ оперативной памяти.

Пользователь сообщает об успешном локальном развертывании модели Qwen3.5-122B-A10B-MINT-MLX на M5 Pro с 64 ГБ ОЗУ, достигнув скорости генерации 39,58 токенов/сек с использованием специальных команд для выделения видеопамяти.

OpenClawRadar