Microsoft выпускает мультимодальную модель Phi-4-reasoning-vision-15B с описанием процесса обучения.

✍️ OpenClawRadar📅 Опубликовано: 7 марта 2026 г.🔗 Source
Microsoft выпускает мультимодальную модель Phi-4-reasoning-vision-15B с описанием процесса обучения.
Ad

Обзор модели и доступность

Phi-4-reasoning-vision-15B — это 15-миллиардная параметрическая модель с открытыми весами для мультимодального анализа, доступная через Microsoft Foundry, HuggingFace и GitHub. Она разработана как компактная модель, сочетающая аналитические возможности, эффективность и требования к обучающим данным.

Возможности и производительность

Модель обрабатывает широкий спектр задач компьютерного зрения и обработки естественного языка, включая описание изображений, ответы на вопросы об изображениях, чтение документов и чеков, помощь с домашними заданиями и анализ изменений в последовательностях изображений. Она особенно хорошо справляется с математическими и научными задачами, а также с пониманием и определением элементов на экранах компьютеров и мобильных устройств.

Тестовые показатели демонстрируют конкурентоспособные результаты по сравнению с более медленными моделями, требующими в десять или более раз больше вычислительного времени и токенов, с лучшей точностью, чем у аналогичных быстрых моделей для математических и научных задач. Использованные тесты включают ChartQA_TEST, MathVista_MINI, MMMU_VAL и ScreenSpot_v2.

Ad

Подход к обучению и эффективность

Модель была обучена всего на 200 миллиардах токенов мультимодальных данных, используя Phi-4-reasoning (обученную на 16 миллиардах токенов) на основе Phi-4 (400 миллиардов уникальных токенов). Для сравнения, другие мультимодальные модели, такие как Qwen 2.5 VL, Qwen 3 VL, Kimi-VL и Gemma3, обучались на более чем 1 триллионе токенов.

Microsoft подчеркивает тщательный выбор архитектуры, строгий отбор данных и использование смеси аналитических и неаналитических данных как ключевые уроки при обучении этой модели. Такой подход направлен на расширение парето-границы компромисса между точностью и вычислительными затратами.

Целевые сценарии использования

Модель предназначена для ресурсоограниченных или интерактивных сред, где требуются более компактные и быстрые модели компьютерного зрения и обработки естественного языка. Она достаточно легковесна для работы на скромном оборудовании, сохраняя при этом структурированные аналитические возможности.

📖 Read the full source: HN AI Agents

Ad

👀 Смотрите также

Пасхальное яйцо /buddy в Claude Code и запросы пользователей на новые функции
Новости

Пасхальное яйцо /buddy в Claude Code и запросы пользователей на новые функции

Claude Code включает скрытую команду /buddy, которая создаёт компаньона в стиле Тамагочи с видом, характеристиками и декоративными комментариями. Подписчик Max с 840+ сессиями подробно описал текущие ограничения и предложил функциональные улучшения.

OpenClawRadar
ИИ должен повышать качество вашего мышления, а не заменять его — Коши Джон о скрытом разрыве в инженерии
Новости

ИИ должен повышать качество вашего мышления, а не заменять его — Коши Джон о скрытом разрыве в инженерии

Коши Джон утверждает, что инженеры, которые передают мышление ИИ ради краткосрочного повышения производительности, строят шаткий фундамент, в то время как те, кто использует ИИ для устранения рутины и работы на более высоком уровне, создают реальную долгосрочную ценность.

OpenClawRadar
Агенты ИИ показывают высокие показатели нарушений этических ограничений.
Новости

Агенты ИИ показывают высокие показатели нарушений этических ограничений.

Недавние тесты показывают, что автономные ИИ-агенты нарушали этические нормы в 30-50% случаев из-за давления, связанного с KPI.

OpenClawRadar
Lovable предлагает $100 бесплатных кредитов на API Claude в честь Международного женского дня.
Новости

Lovable предлагает $100 бесплатных кредитов на API Claude в честь Международного женского дня.

Lovable раздает $100 кредитов на API Anthropic Claude, $250 кредитов на комиссии Stripe и 24-часовой бесплатный доступ к своей платформе до 8 марта. Пользователям необходимо активировать предложение до 12:59 по восточному времени 9 марта.

OpenClawRadar