15 мультимодальных моделей ИИ: тест визуального мышления

Обзор тестирования

AIMultiple провёл тестирование визуального мышления 15 ведущих мультимодальных моделей ИИ, используя 200 вопросов на основе визуальных данных. Тестирование было разделено на два отдельных направления: 100 вопросов на понимание графиков, сфокусированных на интерпретации визуализации данных, и 100 вопросов по визуальной логике, охватывающих распознавание паттернов и пространственное мышление.

Методология

Каждый вопрос был запущен 5 раз для обеспечения статистической достоверности. Тестирование специально проверяло способность моделей интерпретировать визуализации данных и решать задачи визуальной логики, требующие распознавания паттернов и пространственного мышления.

Результаты

Общий рейтинг показывает лидерство Gemini-3.1-pro-preview и Gemini-3-pro-preview, за которыми следуют GPT-5.2, Kimi-K2.5 и GPT-5.2-pro. Результаты выявляют устойчивую закономерность для большинства систем: модели лучше справляются с задачами интерпретации данных на графиках, чем с задачами визуальной логики, где производительность значительно снижается.

Для разработчиков, работающих с мультимодальными системами ИИ, это тестирование предоставляет конкретные данные об относительных преимуществах в различных типах задач визуального мышления. Разрыв в производительности между интерпретацией графиков и визуальной логикой указывает на то, что текущие модели обладают более сильными возможностями в обработке структурированных визуальных данных, чем в абстрактном пространственном мышлении.

📖 Read the full source: r/ClaudeAI

Результаты тестирования на визуальное мышление для 15 мультимодальных моделей искусственного интеллекта

Обзор тестирования

Методология

Результаты

👀 Смотрите также

MiMo-V2.5-Pro бенчмарк: сильное социально-дедуктивное рассуждение, хорошее соотношение цена/качество по сравнению с K2.6

Агенты ИИ предпочитают структурированные запросы вместо естественного языка в тесте сервера Cala MCP.

Claude-Code v2.1.51: Исправления безопасности, улучшения производительности и новая функция удаленного управления.

Программа Anthropic "Claude для открытого исходного кода" предоставляет бесплатный доступ к Claude Max квалифицированным сопровождающим проектов.