Microsoft veröffentlicht Phi-4-reasoning-vision-15B multimodales Modell mit Trainingserkenntnissen

✍️ OpenClawRadar📅 Veröffentlicht: 7. März 2026🔗 Source
Microsoft veröffentlicht Phi-4-reasoning-vision-15B multimodales Modell mit Trainingserkenntnissen
Ad

Modellübersicht und Verfügbarkeit

Phi-4-reasoning-vision-15B ist ein offenes multimodales Reasoning-Modell mit 15 Milliarden Parametern, das über Microsoft Foundry, HuggingFace und GitHub verfügbar ist. Es wurde als kompaktes Modell konzipiert, das Reasoning-Leistung, Effizienz und Trainingsdatenbedarf in Einklang bringt.

Fähigkeiten und Leistung

Das Modell bewältigt eine breite Palette von Vision-Language-Aufgaben, darunter Bildbeschreibung, Fragen zu Bildern, Lesen von Dokumenten und Quittungen, Hausaufgabenhilfe und Schlussfolgerungen aus Bildsequenzen. Es zeichnet sich besonders bei mathematisch-naturwissenschaftlichen Reasoning-Aufgaben sowie beim Verständnis und der Verortung von Elementen auf Computer- und Mobilbildschirmen aus.

Leistungsbenchmarks zeigen wettbewerbsfähige Ergebnisse im Vergleich zu langsameren Modellen, die das Zehnfache oder mehr an Rechenzeit und Tokens benötigen, mit besserer Genauigkeit als ähnlich schnelle Modelle für mathematisch-naturwissenschaftliches Reasoning. Zu den verwendeten Benchmarks gehören ChartQA_TEST, MathVista_MINI, MMMU_VAL und ScreenSpot_v2.

Ad

Trainingsansatz und Effizienz

Das Modell wurde mit nur 200 Milliarden Tokens multimodaler Daten trainiert, wobei Phi-4-reasoning (trainiert mit 16 Milliarden Tokens) auf Basis von Phi-4 (400 Milliarden einzigartige Tokens) genutzt wurde. Dies steht im Vergleich zu mehr als 1 Billion Tokens, die für das Training anderer multimodaler Modelle wie Qwen 2.5 VL, Qwen 3 VL, Kimi-VL und Gemma3 verwendet werden.

Microsoft betont sorgfältige Architekturentscheidungen, rigorose Datenkuratierung und die Verwendung einer Mischung aus Reasoning- und Nicht-Reasoning-Daten als wichtige Erkenntnisse aus dem Training dieses Modells. Der Ansatz zielt darauf ab, die Pareto-Front des Kompromisses zwischen Genauigkeit und Rechenkosten zu verschieben.

Zielanwendungsfälle

Das Modell ist für ressourcenbeschränkte oder interaktive Umgebungen gedacht, in denen kleinere, schnellere Vision-Language-Modelle benötigt werden. Es ist leichtgewichtig genug, um auf bescheidener Hardware zu laufen, und behält dabei strukturierte Reasoning-Fähigkeiten bei.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

Nvidias Nemotron 3 Super: 120-Milliarden-Parameter-Modell mit 12 Milliarden aktiven Inferenzparametern
Nachrichten

Nvidias Nemotron 3 Super: 120-Milliarden-Parameter-Modell mit 12 Milliarden aktiven Inferenzparametern

Nvidias Nemotron 3 Super verfügt über insgesamt 120 Milliarden Parameter, aktiviert jedoch während der Inferenz nur 12 Milliarden. Dadurch erreicht es das Wissen eines 120-Milliarden-Modells zu etwa den Rechenkosten eines 12-Milliarden-Modells, und zwar durch effizientes Routing statt Kompression.

OpenClawRadar
Neue Möglichkeiten erschließen: Claude Max mit Opus 4.6 als API nutzen
Nachrichten

Neue Möglichkeiten erschließen: Claude Max mit Opus 4.6 als API nutzen

Entdecken Sie einen kreativen Ansatz zur Nutzung von Claude Max-Abonnements als API, die mit Opus 4.6 kompatibel ist, wie von den Technikbegeisterten der Community erkundet.

OpenClawRadar
EU-Abonnenten melden nicht offengelegte Nutzungslimits von Claude Pro – Möglicher Verstoß gegen Verbraucherschutzgesetze
Nachrichten

EU-Abonnenten melden nicht offengelegte Nutzungslimits von Claude Pro – Möglicher Verstoß gegen Verbraucherschutzgesetze

Ein Reddit-Beitrag beschreibt, wie das Marketing von Claude Pro zwar „keine Grenzen“ verspricht, EU-Nutzer aber mit Zusatzkosten konfrontiert werden und nicht offengelegte Sitzungslimits bestehen, was möglicherweise gegen EU-Verbraucherrichtlinien verstößt.

OpenClawRadar
Claude-Code löscht Produktionsdatenbank nach Terraform-State-File-Fehler
Nachrichten

Claude-Code löscht Produktionsdatenbank nach Terraform-State-File-Fehler

Ein Entwickler nutzte Claude Code, um AWS-Infrastruktur mit Terraform zu verwalten, doch eine fehlende Statusdatei führte zu doppelten Ressourcen und einem anschließenden 'destroy'-Befehl, der 2,5 Jahre an Aufzeichnungen inklusive Datenbank-Snapshots löschte.

OpenClawRadar