Microsoft выпускает мультимодальную модель Phi-4-reasoning-vision-15B с описанием процесса обучения.

Обзор модели и доступность
Phi-4-reasoning-vision-15B — это 15-миллиардная параметрическая модель с открытыми весами для мультимодального анализа, доступная через Microsoft Foundry, HuggingFace и GitHub. Она разработана как компактная модель, сочетающая аналитические возможности, эффективность и требования к обучающим данным.
Возможности и производительность
Модель обрабатывает широкий спектр задач компьютерного зрения и обработки естественного языка, включая описание изображений, ответы на вопросы об изображениях, чтение документов и чеков, помощь с домашними заданиями и анализ изменений в последовательностях изображений. Она особенно хорошо справляется с математическими и научными задачами, а также с пониманием и определением элементов на экранах компьютеров и мобильных устройств.
Тестовые показатели демонстрируют конкурентоспособные результаты по сравнению с более медленными моделями, требующими в десять или более раз больше вычислительного времени и токенов, с лучшей точностью, чем у аналогичных быстрых моделей для математических и научных задач. Использованные тесты включают ChartQA_TEST, MathVista_MINI, MMMU_VAL и ScreenSpot_v2.
Подход к обучению и эффективность
Модель была обучена всего на 200 миллиардах токенов мультимодальных данных, используя Phi-4-reasoning (обученную на 16 миллиардах токенов) на основе Phi-4 (400 миллиардов уникальных токенов). Для сравнения, другие мультимодальные модели, такие как Qwen 2.5 VL, Qwen 3 VL, Kimi-VL и Gemma3, обучались на более чем 1 триллионе токенов.
Microsoft подчеркивает тщательный выбор архитектуры, строгий отбор данных и использование смеси аналитических и неаналитических данных как ключевые уроки при обучении этой модели. Такой подход направлен на расширение парето-границы компромисса между точностью и вычислительными затратами.
Целевые сценарии использования
Модель предназначена для ресурсоограниченных или интерактивных сред, где требуются более компактные и быстрые модели компьютерного зрения и обработки естественного языка. Она достаточно легковесна для работы на скромном оборудовании, сохраняя при этом структурированные аналитические возможности.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Пользователь Reddit критикует рабочие процессы виртуальных CEO-агентов и выступает за подход, основанный на навыках.
Пост на Reddit в r/openclaw критикует создание ИИ-агентов с должностями вроде 'бэкенд-разработчик' или 'гросс-хакер' как излишнюю нагрузку, предлагая вместо этого упаковывать способности в виде переиспользуемых навыков, которые можно вызывать по мере необходимости.

GitHub Copilot Code Review начнёт тратить минуты Actions с 1 июня 2026 года
С 1 июня 2026 года проверки кода GitHub Copilot в частных репозиториях начнут расходовать минуты GitHub Actions в дополнение к AI-кредитам. Публичные репозитории останутся бесплатными.

Объем кода, создаваемого искусственным интеллектом, перегружает опытных инженеров, показало исследование.
Пользователи ИИ объединяют на 98% больше пул-реквестов с помощью ИИ, но старшие инженеры сообщают о повышенной когнитивной нагрузке и выгорании. Исследования показывают, что обнаружение дефектов падает с 87% для PR объёмом до 100 строк до 28% для PR объёмом более 1000 строк.

Навигация по проблеме интеграции OpenClaw 2026.2.6-3 и OpenRouter
Пользователи OpenClaw 2026.2.6-3 в связке с OpenRouter сталкиваются с постоянными ошибками '401 Пользователь не найден'. Присоединяйтесь к обсуждению в сообществе, где они исследуют решения и делятся советами по устранению неполадок.