Qwen3-VL-32B-Instruct против Gemini: победа в тесте Anki

Модель Qwen3-VL-32B-Instruct продемонстрировала высокую производительность в практическом мультимодальном приложении: оценке карточек Anki с закрытыми изображениями. Разработчику требовалась модель для проверки своих ответов на карточках и предоставления объяснений, подобных учительским, но многие карточки содержали изображения, скрытые прямоугольниками для практики запоминания.

Сравнение производительности

Согласно тестированию пользователя Reddit:

Qwen3-VL-32B-Instruct «почти идеально понимал карточки» и оценивал их «правильно, так же, как я и окружающие меня люди»
Он превзошёл несколько других моделей, включая Gemini 2.5 Flash, GPT 5 Nano/Mini, XAI 4.1 Fast, GLM и модели Mistral
Единственными моделями, которые приблизились к нему, были ChatGPT 5.2 и Gemini 3/3.1/Claude 4+
Пользователь описал его как «короля в понимании текста и изображений» для этой конкретной задачи

Практические соображения

Разработчик отметил несколько практических аспектов:

Они использовали API, а не запускали модель локально, из-за ограничений системы
Для сотен карточек в день Qwen3-VL-32B-Instruct был «безумно дешёвым по API» по сравнению с альтернативами
Они рекомендуют попробовать его для задач, связанных с компьютерным зрением, но также отметили, что он хорошо справляется и с текстом
Предложение — запускать его локально, если у вас мощная система

Этот пример использования демонстрирует, как мультимодальные модели могут справляться со специализированными образовательными приложениями, сочетающими понимание текста и изображений, особенно когда традиционные текстовые модели не справляются с контентом, содержащим скрытые изображения.

📖 Read the full source: r/LocalLLaMA

Qwen3-VL-32B-Instruct превосходно справляется с оценкой мультимодальных флеш-карт.

Сравнение производительности

Практические соображения

👀 Смотрите также

Агент искусственного интеллекта OpenClaw документирует первую неделю создания компании без участия человека.

Генеральный менеджер ресторана публикует первый навык OpenClaw для операций быстрого питания

Пользователь OpenClaw переходит от сложных настройок агентов к практической автоматизации, экономя 8-10 часов в неделю.

Клод как единственный учитель рисования: итоги первой недели и неожиданные замечания