Phi-4-reasoning-vision-15B: Modelo Multimodal de Raciocínio da Microsoft

Visão geral e disponibilidade do modelo

O Phi-4-reasoning-vision-15B é um modelo multimodal de raciocínio de 15 bilhões de parâmetros com pesos abertos, disponível através do Microsoft Foundry, HuggingFace e GitHub. Ele foi projetado como um modelo compacto que equilibra poder de raciocínio, eficiência e necessidades de dados de treinamento.

Capacidades e desempenho

O modelo lida com uma ampla gama de tarefas de visão e linguagem, incluindo legendagem de imagens, perguntas sobre imagens, leitura de documentos e recibos, ajuda com lição de casa e inferência sobre mudanças em sequências de imagens. Ele se destaca especialmente no raciocínio matemático e científico e na compreensão e localização de elementos em telas de computador e dispositivos móveis.

Os benchmarks de desempenho mostram resultados competitivos em comparação com modelos mais lentos que exigem dez vezes ou mais tempo de computação e tokens, com melhor precisão do que modelos igualmente rápidos para raciocínio matemático e científico. Os benchmarks utilizados incluem ChartQA_TEST, MathVista_MINI, MMMU_VAL e ScreenSpot_v2.

Abordagem de treinamento e eficiência

O modelo foi treinado com apenas 200 bilhões de tokens de dados multimodais, aproveitando o Phi-4-reasoning (treinado com 16 bilhões de tokens) baseado no Phi-4 (400 bilhões de tokens únicos). Isso se compara a mais de 1 trilhão de tokens usados para treinar outros modelos multimodais como Qwen 2.5 VL, Qwen 3 VL, Kimi-VL e Gemma3.

A Microsoft enfatiza escolhas cuidadosas de arquitetura, curadoria rigorosa de dados e o uso de uma mistura de dados de raciocínio e não-raciocínio como lições-chave do treinamento deste modelo. A abordagem visa avançar a fronteira de Pareto do equilíbrio entre precisão e custos computacionais.

Casos de uso pretendidos

O modelo é destinado a ambientes com recursos limitados ou interativos onde são necessários modelos de visão e linguagem menores e mais rápidos. Ele é leve o suficiente para rodar em hardware modesto enquanto mantém capacidades estruturadas de raciocínio.

📖 Leia a fonte completa: HN AI Agents

A Microsoft lança o modelo multimodal Phi-4-reasoning-vision-15B com insights de treinamento.

Visão geral e disponibilidade do modelo

Capacidades e desempenho

Abordagem de treinamento e eficiência

Casos de uso pretendidos

👀 See Also

Claude Code evoluindo para um SO de engenharia em vez de apenas um chat de código com IA

RTX 5080 16GB: Qwen3.6 35B MoE em Contexto de 128k — 56 tok/s, e Por Que o MTP Não Ajuda

Cemitério de IA: 100 Ferramentas de IA Desativadas e Adquiridas Rastreadas – 88 Apenas em 2026

Estratégia de pesos abertos da Mistral: avaliação de US$ 14 bi em soberania, não em benchmarks