Результаты тестирования на визуальное мышление для 15 мультимодальных моделей искусственного интеллекта

Обзор тестирования
AIMultiple провёл тестирование визуального мышления 15 ведущих мультимодальных моделей ИИ, используя 200 вопросов на основе визуальных данных. Тестирование было разделено на два отдельных направления: 100 вопросов на понимание графиков, сфокусированных на интерпретации визуализации данных, и 100 вопросов по визуальной логике, охватывающих распознавание паттернов и пространственное мышление.
Методология
Каждый вопрос был запущен 5 раз для обеспечения статистической достоверности. Тестирование специально проверяло способность моделей интерпретировать визуализации данных и решать задачи визуальной логики, требующие распознавания паттернов и пространственного мышления.
Результаты
Общий рейтинг показывает лидерство Gemini-3.1-pro-preview и Gemini-3-pro-preview, за которыми следуют GPT-5.2, Kimi-K2.5 и GPT-5.2-pro. Результаты выявляют устойчивую закономерность для большинства систем: модели лучше справляются с задачами интерпретации данных на графиках, чем с задачами визуальной логики, где производительность значительно снижается.
Для разработчиков, работающих с мультимодальными системами ИИ, это тестирование предоставляет конкретные данные об относительных преимуществах в различных типах задач визуального мышления. Разрыв в производительности между интерпретацией графиков и визуальной логикой указывает на то, что текущие модели обладают более сильными возможностями в обработке структурированных визуальных данных, чем в абстрактном пространственном мышлении.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Сравнение производительности Qwen3-30B-A3B и Qwen3.5-35B-A3B на RTX 5090
Сравнительный тест Qwen3-30B-A3B и Qwen3.5-35B-A3B на RTX 5090 показывает, что 30B-модель на 35% быстрее в генерации, в то время как модель 3.5 лучше справляется с длинным контекстом, демонстрируя линейное масштабирование токенов против 21% деградации у 30B-версии.

OpenClaw запускает BotsChat: родной чат-инструмент, революционизирующий коммуникацию агентов.
OpenClaw представляет BotsChat, новый нативный инструмент чата, предназначенный для улучшения общения между AI-кодирующими агентами. Узнайте, как этот инструмент может оптимизировать ваши процессы автоматизации.

Клод Код Сабагенты Не Загружают Навыки в Мультиагентных Системах
Разработчик сообщает, что суб-агенты в Claude Code v2.1.91 не могут получить доступ к навыкам, определённым в директории .claude/skills/, несмотря на то, что навыки идеально работают в основной сессии. Несколько подходов, включая указание навыков во фронтмете агента, инструмент Skill, флаги CLI и команды агентов, не дают результата.

DeepSeek не предоставляет свою последнюю модель ИИ компаниям Nvidia и AMD.
DeepSeek удерживает свою последнюю модель ИИ от американских производителей чипов, включая Nvidia и AMD, согласно источникам Reuters. У статьи 19 баллов и 3 комментария на Hacker News.