Microsoft publie le modèle multimodal Phi-4-reasoning-vision-15B avec des informations sur son entraînement.

✍️ OpenClawRadar📅 Publié: March 7, 2026🔗 Source
Microsoft publie le modèle multimodal Phi-4-reasoning-vision-15B avec des informations sur son entraînement.
Ad

Présentation et disponibilité du modèle

Phi-4-reasoning-vision-15B est un modèle de raisonnement multimodal open-weight de 15 milliards de paramètres disponible via Microsoft Foundry, HuggingFace et GitHub. Conçu comme un modèle compact, il équilibre puissance de raisonnement, efficacité et besoins en données d'entraînement.

Capacités et performances

Le modèle traite un large éventail de tâches vision-langage incluant la génération de légendes d'images, le questionnement sur des images, la lecture de documents et reçus, l'aide aux devoirs, et l'inférence sur les changements dans des séquences d'images. Il excelle particulièrement en raisonnement mathématique et scientifique ainsi qu'en compréhension et ancrage des éléments sur les écrans d'ordinateur et mobiles.

Les benchmarks de performance montrent des résultats compétitifs par rapport aux modèles plus lents nécessitant dix fois plus de temps de calcul et de tokens, avec une meilleure précision que les modèles similaires rapides pour le raisonnement mathématique et scientifique. Les benchmarks utilisés incluent ChartQA_TEST, MathVista_MINI, MMMU_VAL et ScreenSpot_v2.

Ad

Approche d'entraînement et efficacité

Le modèle a été entraîné avec seulement 200 milliards de tokens de données multimodales, exploitant Phi-4-reasoning (entraîné avec 16 milliards de tokens) basé sur Phi-4 (400 milliards de tokens uniques). Cela se compare aux plus de 1 000 milliards de tokens utilisés pour l'entraînement d'autres modèles multimodaux comme Qwen 2.5 VL, Qwen 3 VL, Kimi-VL et Gemma3.

Microsoft souligne des choix architecturaux minutieux, une curation rigoureuse des données et l'utilisation d'un mélange de données de raisonnement et non-raisonnement comme enseignements clés de l'entraînement de ce modèle. L'approche vise à repousser la frontière de Pareto du compromis entre précision et coûts de calcul.

Cas d'utilisation ciblés

Le modèle est destiné aux environnements à ressources limitées ou interactifs nécessitant des modèles vision-langage plus petits et plus rapides. Il est suffisamment léger pour fonctionner sur du matériel modeste tout en conservant des capacités de raisonnement structuré.

📖 Lire la source complète : HN AI Agents

Ad

👀 See Also