Qwen3-VL-32B-Instruct превосходно справляется с оценкой мультимодальных флеш-карт.

Модель Qwen3-VL-32B-Instruct продемонстрировала высокую производительность в практическом мультимодальном приложении: оценке карточек Anki с закрытыми изображениями. Разработчику требовалась модель для проверки своих ответов на карточках и предоставления объяснений, подобных учительским, но многие карточки содержали изображения, скрытые прямоугольниками для практики запоминания.
Сравнение производительности
Согласно тестированию пользователя Reddit:
- Qwen3-VL-32B-Instruct «почти идеально понимал карточки» и оценивал их «правильно, так же, как я и окружающие меня люди»
- Он превзошёл несколько других моделей, включая Gemini 2.5 Flash, GPT 5 Nano/Mini, XAI 4.1 Fast, GLM и модели Mistral
- Единственными моделями, которые приблизились к нему, были ChatGPT 5.2 и Gemini 3/3.1/Claude 4+
- Пользователь описал его как «короля в понимании текста и изображений» для этой конкретной задачи
Практические соображения
Разработчик отметил несколько практических аспектов:
- Они использовали API, а не запускали модель локально, из-за ограничений системы
- Для сотен карточек в день Qwen3-VL-32B-Instruct был «безумно дешёвым по API» по сравнению с альтернативами
- Они рекомендуют попробовать его для задач, связанных с компьютерным зрением, но также отметили, что он хорошо справляется и с текстом
- Предложение — запускать его локально, если у вас мощная система
Этот пример использования демонстрирует, как мультимодальные модели могут справляться со специализированными образовательными приложениями, сочетающими понимание текста и изображений, особенно когда традиционные текстовые модели не справляются с контентом, содержащим скрытые изображения.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Создание технической книги с помощью Claude Code: Процесс и подводные камни
Разработчик создал EPUB-книгу о продвинутых функциях Claude Code, используя Claude для сбора документации Anthropic, исследования реальных примеров из финансовой сферы и структурирования глав с техническими особенностями, за которыми следуют практические применения. Процесс выявил специфические ограничения рабочих процессов при использовании агентов.

Разработчик создает приложение для терапии пар с помощью Claude и делится инсайтами по промпт-инжинирингу.
Разработчик создал TherapAI, прогрессивное веб-приложение для пар, где каждый партнёр получает личного AI-компаньона на основе Claude Sonnet. Разработчик делится пятью конкретными техниками инженерии промптов, которые сделали Claude более человечным и менее похожим на чат-бота.

Разработчик-одиночка управляет компанией с помощью 4 AI-агентов на бесплатном тарифе Gemini.
Разработчик из Тайваня создал четыре ИИ-агента с помощью OpenClaw и бесплатного тарифа Gemini 2.5 Flash (1500 запросов/день) для обработки генерации контента, поиска потенциальных клиентов, сканирования безопасности и операционных задач для своего технологического агентства, при ежемесячных затратах на LLM в $0.

Монитор конфликтов в реальном времени, созданный на основе API Claude, анализирует влияние новостей
Разработчик использовал API Claude для создания автоматизированного конвейера, который читает новости о конфликтах из 100+ источников, классифицирует их по темам/странам/серьезности, генерирует баллы влияния (1-100) и создает умные трехстрочные сводки.