Microsoft выпускает мультимодальную модель Phi-4-reasoning-vision-15B с описанием процесса обучения.

✍️ OpenClawRadar📅 Опубликовано: 7 марта 2026 г.🔗 Source

Обзор модели и доступность

Phi-4-reasoning-vision-15B — это 15-миллиардная параметрическая модель с открытыми весами для мультимодального анализа, доступная через Microsoft Foundry, HuggingFace и GitHub. Она разработана как компактная модель, сочетающая аналитические возможности, эффективность и требования к обучающим данным.

Возможности и производительность

Модель обрабатывает широкий спектр задач компьютерного зрения и обработки естественного языка, включая описание изображений, ответы на вопросы об изображениях, чтение документов и чеков, помощь с домашними заданиями и анализ изменений в последовательностях изображений. Она особенно хорошо справляется с математическими и научными задачами, а также с пониманием и определением элементов на экранах компьютеров и мобильных устройств.

Тестовые показатели демонстрируют конкурентоспособные результаты по сравнению с более медленными моделями, требующими в десять или более раз больше вычислительного времени и токенов, с лучшей точностью, чем у аналогичных быстрых моделей для математических и научных задач. Использованные тесты включают ChartQA_TEST, MathVista_MINI, MMMU_VAL и ScreenSpot_v2.

Подход к обучению и эффективность

Модель была обучена всего на 200 миллиардах токенов мультимодальных данных, используя Phi-4-reasoning (обученную на 16 миллиардах токенов) на основе Phi-4 (400 миллиардов уникальных токенов). Для сравнения, другие мультимодальные модели, такие как Qwen 2.5 VL, Qwen 3 VL, Kimi-VL и Gemma3, обучались на более чем 1 триллионе токенов.

Microsoft подчеркивает тщательный выбор архитектуры, строгий отбор данных и использование смеси аналитических и неаналитических данных как ключевые уроки при обучении этой модели. Такой подход направлен на расширение парето-границы компромисса между точностью и вычислительными затратами.

Целевые сценарии использования

Модель предназначена для ресурсоограниченных или интерактивных сред, где требуются более компактные и быстрые модели компьютерного зрения и обработки естественного языка. Она достаточно легковесна для работы на скромном оборудовании, сохраняя при этом структурированные аналитические возможности.

📖 Read the full source: HN AI Agents

👀 Смотрите также

Новости

Пользователь Reddit критикует рабочие процессы виртуальных CEO-агентов и выступает за подход, основанный на навыках.

Пост на Reddit в r/openclaw критикует создание ИИ-агентов с должностями вроде 'бэкенд-разработчик' или 'гросс-хакер' как излишнюю нагрузку, предлагая вместо этого упаковывать способности в виде переиспользуемых навыков, которые можно вызывать по мере необходимости.

18 апр. 2026 г., 07:45 UTC

OpenClawRadar

Новости

GitHub Copilot Code Review начнёт тратить минуты Actions с 1 июня 2026 года

С 1 июня 2026 года проверки кода GitHub Copilot в частных репозиториях начнут расходовать минуты GitHub Actions в дополнение к AI-кредитам. Публичные репозитории останутся бесплатными.

28 апр. 2026 г., 14:18 UTC

OpenClawRadar

Новости

Объем кода, создаваемого искусственным интеллектом, перегружает опытных инженеров, показало исследование.

Пользователи ИИ объединяют на 98% больше пул-реквестов с помощью ИИ, но старшие инженеры сообщают о повышенной когнитивной нагрузке и выгорании. Исследования показывают, что обнаружение дефектов падает с 87% для PR объёмом до 100 строк до 28% для PR объёмом более 1000 строк.

17 апр. 2026 г., 00:45 UTC

OpenClawRadar

Новости

Навигация по проблеме интеграции OpenClaw 2026.2.6-3 и OpenRouter

Пользователи OpenClaw 2026.2.6-3 в связке с OpenRouter сталкиваются с постоянными ошибками '401 Пользователь не найден'. Присоединяйтесь к обсуждению в сообществе, где они исследуют решения и делятся советами по устранению неполадок.

20 апр. 2026 г., 17:38 UTC

OpenClawRadar