Phi-4-reasoning-vision-15B オープンウェイトマルチモーダルモデルをリリース

モデルの概要と利用可能性

Phi-4-reasoning-vision-15Bは、Microsoft Foundry、HuggingFace、GitHubを通じて利用可能な150億パラメータのオープンウェイトマルチモーダル推論モデルです。推論能力、効率性、トレーニングデータの必要性のバランスを取るコンパクトなモデルとして設計されています。

能力と性能

このモデルは、画像キャプション生成、画像に関する質問応答、文書や領収書の読み取り、宿題の手助け、一連の画像の変化推論など、幅広い視覚言語タスクを処理します。特に数学・科学推論、およびコンピュータやモバイル画面の要素の理解と位置特定に優れています。

性能ベンチマークでは、10倍以上の計算時間とトークンを必要とする遅いモデルと比較して競争力のある結果を示し、数学・科学推論において同様に高速なモデルよりも優れた精度を発揮します。使用されたベンチマークには、ChartQA_TEST、MathVista_MINI、MMMU_VAL、ScreenSpot_v2が含まれます。

トレーニング手法と効率性

このモデルはわずか2000億トークンのマルチモーダルデータでトレーニングされ、Phi-4（4000億ユニークトークン）に基づくPhi-4-reasoning（160億トークンでトレーニング）を活用しています。これは、Qwen 2.5 VL、Qwen 3 VL、Kimi-VL、Gemma3などの他のマルチモーダルモデルのトレーニングに使用される1兆トークン以上と比較されます。

マイクロソフトは、慎重なアーキテクチャ選択、厳格なデータキュレーション、推論データと非推論データの混合使用を、このモデルのトレーニングから得られた重要な教訓として強調しています。このアプローチは、精度と計算コストのトレードオフにおけるパレートフロンティアを押し上げることを目指しています。