Бенчмарк SPLICE показывает, что визуально-языковые модели испытывают трудности с временными рассуждениями и полагаются на языковые пресуппозиции.

Результаты бенчмарка SPLICE
Бенчмарк SPLICE проверяет временное, причинно-следственное, пространственное, контекстуальное и логическое мышление, заставляя модели восстанавливать правильную последовательность перемешанных видеоклипов. Исследование, соавтором которого является автор исходного поста, было опубликовано на EMNLP 2025.
Подробности производительности моделей
Протестированные модели включали Gemini Flash (1.5 и 2.0), Qwen2-VL (7B и 72B), InternVL2.5 и LLaVA-OneVision. Gemini 2.0 Flash набрала 51% в задаче только на визуальной информации, в то время как человеческий результат составил 85%. Модели с открытым исходным кодом показали значительно более слабые результаты:
- LLaVA-OneVision-72B едва превзошла случайное угадывание в настройке только на визуальной информации
- InternVL2.5-78B показала схожий низкий результат
- Qwen2-VL-72B достигла лишь около 30% в настройке только на визуальной информации
- Qwen2-VL-7B показала результат на уровне 72B-варианта, что говорит о том, что масштабирование языковой модели не помогает, когда узким местом является визуальный энкодер
Зависимость от языковых приоритетов
Когда были добавлены написанные человеком текстовые аннотации, описывающие содержание клипов, производительность моделей значительно выросла, в то время как человеческий результат остался неизменным. Это указывает на то, что модели полагаются на языковые приоритеты, чтобы компенсировать слабое визуальное понимание. Примечательно, что Qwen2-VL-72B превзошла Gemini в рассуждениях только на тексте.
Поведение с визуальными «ярлыками»
Модели продемонстрировали проблемные паттерны рассуждений. Когда первый и последний видеоклипы выглядели визуально похожими (например, открытие и закрытие дверцы принтера), модели предсказывали, что эти клипы являются соседними, в 57% случаев, по сравнению с 2,5% у людей и 27% случайного шанса. Это говорит о том, что модели сопоставляют паттерны на основе визуального сходства, а не рассуждают о событиях.
Ограничения тестирования и будущая работа
Исследование не тестировало Claude (который не поддерживает видео-ввод) или модели OpenAI (которые не могли надёжно обрабатывать многовидео-ввод во время тестирования). Набор данных является публичным, и автор поста отмечает, что более новые модели, такие как Gemini 3 Flash и Qwen3-VL (с нативным контекстом 256K, улучшенным пространственно-временным моделированием и вариантами MoE до 235B), следует протестировать на SPLICE, чтобы увидеть, сохраняются ли проблемы с языковыми приоритетами. Предварительное тестирование предполагает, что проблема языкового приоритета сохраняется, хотя статистическая значимость ещё не установлена для всех экспериментальных выборок.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Миньоны Stripe: Одноразовые ИИ-агенты для программирования
Миньоны – это однострочные AI-агенты кода Stripe, направленные на повышение продуктивности разработчиков за счет полного автоматизированного процесса с использованием LLM.

OpenClaw проводит свое первое AMA: Взгляды на AI-кодирующих агентов
OpenClaw, известная фигура в области AI-кодирования, провела свою первую AMA-сессию на Reddit. Обсуждение прояснило ее воздействие, планы на будущее и вызовы.

Утечка данных Mercor: украдено 4 ТБ голосовых образцов и удостоверений личности – что могут сделать злоумышленники
4 ТБ голосовых записей, привязанных к удостоверениям личности, украдены у 40 000 подрядчиков Mercor. Злоумышленники могут клонировать голос из 15 секунд чистой записи и обходить голосовую верификацию в банках, совершать дипфейк-звонки и страховое мошенничество.

Qwen3.5-122B-A10B-MINT-MLX работает плавно на M5 Pro с 64 ГБ оперативной памяти.
Пользователь сообщает об успешном локальном развертывании модели Qwen3.5-122B-A10B-MINT-MLX на M5 Pro с 64 ГБ ОЗУ, достигнув скорости генерации 39,58 токенов/сек с использованием специальных команд для выделения видеопамяти.