Microsoft veröffentlicht Phi-4-reasoning-vision-15B multimodales Modell mit Trainingserkenntnissen

✍️ OpenClawRadar📅 Veröffentlicht: 7. März 2026🔗 Source
Microsoft veröffentlicht Phi-4-reasoning-vision-15B multimodales Modell mit Trainingserkenntnissen
Ad

Modellübersicht und Verfügbarkeit

Phi-4-reasoning-vision-15B ist ein offenes multimodales Reasoning-Modell mit 15 Milliarden Parametern, das über Microsoft Foundry, HuggingFace und GitHub verfügbar ist. Es wurde als kompaktes Modell konzipiert, das Reasoning-Leistung, Effizienz und Trainingsdatenbedarf in Einklang bringt.

Fähigkeiten und Leistung

Das Modell bewältigt eine breite Palette von Vision-Language-Aufgaben, darunter Bildbeschreibung, Fragen zu Bildern, Lesen von Dokumenten und Quittungen, Hausaufgabenhilfe und Schlussfolgerungen aus Bildsequenzen. Es zeichnet sich besonders bei mathematisch-naturwissenschaftlichen Reasoning-Aufgaben sowie beim Verständnis und der Verortung von Elementen auf Computer- und Mobilbildschirmen aus.

Leistungsbenchmarks zeigen wettbewerbsfähige Ergebnisse im Vergleich zu langsameren Modellen, die das Zehnfache oder mehr an Rechenzeit und Tokens benötigen, mit besserer Genauigkeit als ähnlich schnelle Modelle für mathematisch-naturwissenschaftliches Reasoning. Zu den verwendeten Benchmarks gehören ChartQA_TEST, MathVista_MINI, MMMU_VAL und ScreenSpot_v2.

Ad

Trainingsansatz und Effizienz

Das Modell wurde mit nur 200 Milliarden Tokens multimodaler Daten trainiert, wobei Phi-4-reasoning (trainiert mit 16 Milliarden Tokens) auf Basis von Phi-4 (400 Milliarden einzigartige Tokens) genutzt wurde. Dies steht im Vergleich zu mehr als 1 Billion Tokens, die für das Training anderer multimodaler Modelle wie Qwen 2.5 VL, Qwen 3 VL, Kimi-VL und Gemma3 verwendet werden.

Microsoft betont sorgfältige Architekturentscheidungen, rigorose Datenkuratierung und die Verwendung einer Mischung aus Reasoning- und Nicht-Reasoning-Daten als wichtige Erkenntnisse aus dem Training dieses Modells. Der Ansatz zielt darauf ab, die Pareto-Front des Kompromisses zwischen Genauigkeit und Rechenkosten zu verschieben.

Zielanwendungsfälle

Das Modell ist für ressourcenbeschränkte oder interaktive Umgebungen gedacht, in denen kleinere, schnellere Vision-Language-Modelle benötigt werden. Es ist leichtgewichtig genug, um auf bescheidener Hardware zu laufen, und behält dabei strukturierte Reasoning-Fähigkeiten bei.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch