Бенчмарк SPLICE показывает, что визуально-языковые модели испытывают трудности с временными рассуждениями и полагаются на языковые пресуппозиции.

✍️ OpenClawRadar📅 Опубликовано: 15 марта 2026 г.🔗 Source

Результаты бенчмарка SPLICE

Бенчмарк SPLICE проверяет временное, причинно-следственное, пространственное, контекстуальное и логическое мышление, заставляя модели восстанавливать правильную последовательность перемешанных видеоклипов. Исследование, соавтором которого является автор исходного поста, было опубликовано на EMNLP 2025.

Подробности производительности моделей

Протестированные модели включали Gemini Flash (1.5 и 2.0), Qwen2-VL (7B и 72B), InternVL2.5 и LLaVA-OneVision. Gemini 2.0 Flash набрала 51% в задаче только на визуальной информации, в то время как человеческий результат составил 85%. Модели с открытым исходным кодом показали значительно более слабые результаты:

LLaVA-OneVision-72B едва превзошла случайное угадывание в настройке только на визуальной информации
InternVL2.5-78B показала схожий низкий результат
Qwen2-VL-72B достигла лишь около 30% в настройке только на визуальной информации
Qwen2-VL-7B показала результат на уровне 72B-варианта, что говорит о том, что масштабирование языковой модели не помогает, когда узким местом является визуальный энкодер

Зависимость от языковых приоритетов

Когда были добавлены написанные человеком текстовые аннотации, описывающие содержание клипов, производительность моделей значительно выросла, в то время как человеческий результат остался неизменным. Это указывает на то, что модели полагаются на языковые приоритеты, чтобы компенсировать слабое визуальное понимание. Примечательно, что Qwen2-VL-72B превзошла Gemini в рассуждениях только на тексте.

Поведение с визуальными «ярлыками»

Модели продемонстрировали проблемные паттерны рассуждений. Когда первый и последний видеоклипы выглядели визуально похожими (например, открытие и закрытие дверцы принтера), модели предсказывали, что эти клипы являются соседними, в 57% случаев, по сравнению с 2,5% у людей и 27% случайного шанса. Это говорит о том, что модели сопоставляют паттерны на основе визуального сходства, а не рассуждают о событиях.

Ограничения тестирования и будущая работа

Исследование не тестировало Claude (который не поддерживает видео-ввод) или модели OpenAI (которые не могли надёжно обрабатывать многовидео-ввод во время тестирования). Набор данных является публичным, и автор поста отмечает, что более новые модели, такие как Gemini 3 Flash и Qwen3-VL (с нативным контекстом 256K, улучшенным пространственно-временным моделированием и вариантами MoE до 235B), следует протестировать на SPLICE, чтобы увидеть, сохраняются ли проблемы с языковыми приоритетами. Предварительное тестирование предполагает, что проблема языкового приоритета сохраняется, хотя статистическая значимость ещё не установлена для всех экспериментальных выборок.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Новости

Верховный суд отказывается пересматривать дело, искусство, созданное ИИ, остаётся неохраняемым авторским правом.

Верховный суд США отказался рассматривать дело о возможности копирайтинга произведений искусства, созданных искусственным интеллектом, оставив в силе решения нижестоящих судов, которые требуют «авторства человека» для защиты авторским правом. Это следует за отказом Бюро по авторским правам в 2022 году удовлетворить просьбу Стивена Тейлора зарегистрировать авторское право на изображение, созданное его алгоритмом.

7 мар. 2026 г., 15:45 UTC

OpenClawRadar

Новости

Результаты тестирования: модели Qwen3.5 на Apple Silicon и AMD GPU с ROCm и Vulkan

Разработчик провел бенчмарк моделей Qwen3.5 (35B MoE, 27B плотная, 122B MoE) на компьютерах Apple Silicon Mac и рабочих станциях с GPU AMD, сравнивая бэкенды ROCm и Vulkan с тестами на масштабирование контекста. Используемое оборудование включало M5 Max, M1 Max и три GPU AMD с различными конфигурациями PCIe.

26 мар. 2026 г., 18:45 UTC

OpenClawRadar

🦀

Новости

Qwen3 27B превосходит Gemma 4 26B в реальном вызове инструментов для локального AI-видеопаплайна

Эксперимент с локальным AI-видеопайплайном показывает, что Qwen3 27B чисто обрабатывает вызовы инструментов, тогда как Gemma 4 26B застревает в циклах. Также рассматриваются Said Image Turbo для локальной генерации изображений и оркестрация OpenCode с контекстом 174K.

13 мая 2026 г., 04:17 UTC

OpenClawRadar

Новости

Claude Desktop против Claude Code: Различия в системных промптах влияют на поведение ИИ

Пользователь сообщает о значительных различиях в поведении между Claude Desktop и Claude Code, несмотря на использование одной и той же модели Claude Opus, аккаунта и настроек. Различия включают рефлекторное согласие, непрошенные советы о благополучии и бизнес-ориентированную подачу в Desktop, которые не встречаются в Code.

28 мар. 2026 г., 02:45 UTC

OpenClawRadar