A Microsoft lança o modelo multimodal Phi-4-reasoning-vision-15B com insights de treinamento.

Visão geral e disponibilidade do modelo
O Phi-4-reasoning-vision-15B é um modelo multimodal de raciocínio de 15 bilhões de parâmetros com pesos abertos, disponível através do Microsoft Foundry, HuggingFace e GitHub. Ele foi projetado como um modelo compacto que equilibra poder de raciocínio, eficiência e necessidades de dados de treinamento.
Capacidades e desempenho
O modelo lida com uma ampla gama de tarefas de visão e linguagem, incluindo legendagem de imagens, perguntas sobre imagens, leitura de documentos e recibos, ajuda com lição de casa e inferência sobre mudanças em sequências de imagens. Ele se destaca especialmente no raciocínio matemático e científico e na compreensão e localização de elementos em telas de computador e dispositivos móveis.
Os benchmarks de desempenho mostram resultados competitivos em comparação com modelos mais lentos que exigem dez vezes ou mais tempo de computação e tokens, com melhor precisão do que modelos igualmente rápidos para raciocínio matemático e científico. Os benchmarks utilizados incluem ChartQA_TEST, MathVista_MINI, MMMU_VAL e ScreenSpot_v2.
Abordagem de treinamento e eficiência
O modelo foi treinado com apenas 200 bilhões de tokens de dados multimodais, aproveitando o Phi-4-reasoning (treinado com 16 bilhões de tokens) baseado no Phi-4 (400 bilhões de tokens únicos). Isso se compara a mais de 1 trilhão de tokens usados para treinar outros modelos multimodais como Qwen 2.5 VL, Qwen 3 VL, Kimi-VL e Gemma3.
A Microsoft enfatiza escolhas cuidadosas de arquitetura, curadoria rigorosa de dados e o uso de uma mistura de dados de raciocínio e não-raciocínio como lições-chave do treinamento deste modelo. A abordagem visa avançar a fronteira de Pareto do equilíbrio entre precisão e custos computacionais.
Casos de uso pretendidos
O modelo é destinado a ambientes com recursos limitados ou interativos onde são necessários modelos de visão e linguagem menores e mais rápidos. Ele é leve o suficiente para rodar em hardware modesto enquanto mantém capacidades estruturadas de raciocínio.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Claude-Code v2.1.110 adiciona modo TUI, notificações push e várias correções
A versão Claude-Code v2.1.110 introduz um novo comando /tui para renderização sem cintilação, recursos de notificação por push para alertas móveis e melhorias no gerenciamento de plugins e funcionalidade de controle remoto. A versão também inclui várias correções de bugs para servidores MCP, manipulação de sessões e problemas de interface do usuário.

Modelos de peso aberto com menos de 100GB não conseguem superar o Claude Haiku em benchmarks de codificação.
Uma comparação de modelos de peso aberto nos benchmarks LiveBench e Arena Code/WebDev mostra que nenhum modelo abaixo de 100GB se aproxima do Claude Haiku 4.5. O concorrente mais próximo é o Minimax M2.5 com 136GB, que corresponde aproximadamente ao desempenho do Haiku.

Usuário do Claude Pro relata que janela de 5 horas de uso foi queimada com um único comando sem saída
Um usuário do Claude Pro relata que um único prompt consumiu toda a sua janela de uso de 5 horas, retornando apenas texto de planejamento e nenhuma entrega. O incidente destaca problemas com o consumo de tokens durante o raciocínio interno e a falta de salvaguardas.

Mistral Medium 3.5 128B Lançado: Modelo Denso com Raciocínio e Visão Configuráveis
A Mistral AI lançou o Mistral Medium 3.5, um modelo denso de 128B com contexto de 256k, esforço de raciocínio configurável e capacidades de visão, sob uma licença MIT modificada.