Microsoft выпускает мультимодальную модель Phi-4-reasoning-vision-15B с описанием процесса обучения.

✍️ OpenClawRadar📅 Опубликовано: 7 марта 2026 г.🔗 Source
Microsoft выпускает мультимодальную модель Phi-4-reasoning-vision-15B с описанием процесса обучения.
Ad

Обзор модели и доступность

Phi-4-reasoning-vision-15B — это 15-миллиардная параметрическая модель с открытыми весами для мультимодального анализа, доступная через Microsoft Foundry, HuggingFace и GitHub. Она разработана как компактная модель, сочетающая аналитические возможности, эффективность и требования к обучающим данным.

Возможности и производительность

Модель обрабатывает широкий спектр задач компьютерного зрения и обработки естественного языка, включая описание изображений, ответы на вопросы об изображениях, чтение документов и чеков, помощь с домашними заданиями и анализ изменений в последовательностях изображений. Она особенно хорошо справляется с математическими и научными задачами, а также с пониманием и определением элементов на экранах компьютеров и мобильных устройств.

Тестовые показатели демонстрируют конкурентоспособные результаты по сравнению с более медленными моделями, требующими в десять или более раз больше вычислительного времени и токенов, с лучшей точностью, чем у аналогичных быстрых моделей для математических и научных задач. Использованные тесты включают ChartQA_TEST, MathVista_MINI, MMMU_VAL и ScreenSpot_v2.

Ad

Подход к обучению и эффективность

Модель была обучена всего на 200 миллиардах токенов мультимодальных данных, используя Phi-4-reasoning (обученную на 16 миллиардах токенов) на основе Phi-4 (400 миллиардов уникальных токенов). Для сравнения, другие мультимодальные модели, такие как Qwen 2.5 VL, Qwen 3 VL, Kimi-VL и Gemma3, обучались на более чем 1 триллионе токенов.

Microsoft подчеркивает тщательный выбор архитектуры, строгий отбор данных и использование смеси аналитических и неаналитических данных как ключевые уроки при обучении этой модели. Такой подход направлен на расширение парето-границы компромисса между точностью и вычислительными затратами.

Целевые сценарии использования

Модель предназначена для ресурсоограниченных или интерактивных сред, где требуются более компактные и быстрые модели компьютерного зрения и обработки естественного языка. Она достаточно легковесна для работы на скромном оборудовании, сохраняя при этом структурированные аналитические возможности.

📖 Read the full source: HN AI Agents

Ad

👀 Смотрите также

Пользователь Reddit критикует рабочие процессы виртуальных CEO-агентов и выступает за подход, основанный на навыках.
Новости

Пользователь Reddit критикует рабочие процессы виртуальных CEO-агентов и выступает за подход, основанный на навыках.

Пост на Reddit в r/openclaw критикует создание ИИ-агентов с должностями вроде 'бэкенд-разработчик' или 'гросс-хакер' как излишнюю нагрузку, предлагая вместо этого упаковывать способности в виде переиспользуемых навыков, которые можно вызывать по мере необходимости.

OpenClawRadar
GitHub Copilot Code Review начнёт тратить минуты Actions с 1 июня 2026 года
Новости

GitHub Copilot Code Review начнёт тратить минуты Actions с 1 июня 2026 года

С 1 июня 2026 года проверки кода GitHub Copilot в частных репозиториях начнут расходовать минуты GitHub Actions в дополнение к AI-кредитам. Публичные репозитории останутся бесплатными.

OpenClawRadar
Объем кода, создаваемого искусственным интеллектом, перегружает опытных инженеров, показало исследование.
Новости

Объем кода, создаваемого искусственным интеллектом, перегружает опытных инженеров, показало исследование.

Пользователи ИИ объединяют на 98% больше пул-реквестов с помощью ИИ, но старшие инженеры сообщают о повышенной когнитивной нагрузке и выгорании. Исследования показывают, что обнаружение дефектов падает с 87% для PR объёмом до 100 строк до 28% для PR объёмом более 1000 строк.

OpenClawRadar
Навигация по проблеме интеграции OpenClaw 2026.2.6-3 и OpenRouter
Новости

Навигация по проблеме интеграции OpenClaw 2026.2.6-3 и OpenRouter

Пользователи OpenClaw 2026.2.6-3 в связке с OpenRouter сталкиваются с постоянными ошибками '401 Пользователь не найден'. Присоединяйтесь к обсуждению в сообществе, где они исследуют решения и делятся советами по устранению неполадок.

OpenClawRadar