Microsoft выпускает мультимодальную модель Phi-4-reasoning-vision-15B с описанием процесса обучения.

Обзор модели и доступность
Phi-4-reasoning-vision-15B — это 15-миллиардная параметрическая модель с открытыми весами для мультимодального анализа, доступная через Microsoft Foundry, HuggingFace и GitHub. Она разработана как компактная модель, сочетающая аналитические возможности, эффективность и требования к обучающим данным.
Возможности и производительность
Модель обрабатывает широкий спектр задач компьютерного зрения и обработки естественного языка, включая описание изображений, ответы на вопросы об изображениях, чтение документов и чеков, помощь с домашними заданиями и анализ изменений в последовательностях изображений. Она особенно хорошо справляется с математическими и научными задачами, а также с пониманием и определением элементов на экранах компьютеров и мобильных устройств.
Тестовые показатели демонстрируют конкурентоспособные результаты по сравнению с более медленными моделями, требующими в десять или более раз больше вычислительного времени и токенов, с лучшей точностью, чем у аналогичных быстрых моделей для математических и научных задач. Использованные тесты включают ChartQA_TEST, MathVista_MINI, MMMU_VAL и ScreenSpot_v2.
Подход к обучению и эффективность
Модель была обучена всего на 200 миллиардах токенов мультимодальных данных, используя Phi-4-reasoning (обученную на 16 миллиардах токенов) на основе Phi-4 (400 миллиардов уникальных токенов). Для сравнения, другие мультимодальные модели, такие как Qwen 2.5 VL, Qwen 3 VL, Kimi-VL и Gemma3, обучались на более чем 1 триллионе токенов.
Microsoft подчеркивает тщательный выбор архитектуры, строгий отбор данных и использование смеси аналитических и неаналитических данных как ключевые уроки при обучении этой модели. Такой подход направлен на расширение парето-границы компромисса между точностью и вычислительными затратами.
Целевые сценарии использования
Модель предназначена для ресурсоограниченных или интерактивных сред, где требуются более компактные и быстрые модели компьютерного зрения и обработки естественного языка. Она достаточно легковесна для работы на скромном оборудовании, сохраняя при этом структурированные аналитические возможности.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Пасхальное яйцо /buddy в Claude Code и запросы пользователей на новые функции
Claude Code включает скрытую команду /buddy, которая создаёт компаньона в стиле Тамагочи с видом, характеристиками и декоративными комментариями. Подписчик Max с 840+ сессиями подробно описал текущие ограничения и предложил функциональные улучшения.

ИИ должен повышать качество вашего мышления, а не заменять его — Коши Джон о скрытом разрыве в инженерии
Коши Джон утверждает, что инженеры, которые передают мышление ИИ ради краткосрочного повышения производительности, строят шаткий фундамент, в то время как те, кто использует ИИ для устранения рутины и работы на более высоком уровне, создают реальную долгосрочную ценность.

Агенты ИИ показывают высокие показатели нарушений этических ограничений.
Недавние тесты показывают, что автономные ИИ-агенты нарушали этические нормы в 30-50% случаев из-за давления, связанного с KPI.

Lovable предлагает $100 бесплатных кредитов на API Claude в честь Международного женского дня.
Lovable раздает $100 кредитов на API Anthropic Claude, $250 кредитов на комиссии Stripe и 24-часовой бесплатный доступ к своей платформе до 8 марта. Пользователям необходимо активировать предложение до 12:59 по восточному времени 9 марта.