Microsoft veröffentlicht Phi-4-reasoning-vision-15B multimodales Modell mit Trainingserkenntnissen

Modellübersicht und Verfügbarkeit
Phi-4-reasoning-vision-15B ist ein offenes multimodales Reasoning-Modell mit 15 Milliarden Parametern, das über Microsoft Foundry, HuggingFace und GitHub verfügbar ist. Es wurde als kompaktes Modell konzipiert, das Reasoning-Leistung, Effizienz und Trainingsdatenbedarf in Einklang bringt.
Fähigkeiten und Leistung
Das Modell bewältigt eine breite Palette von Vision-Language-Aufgaben, darunter Bildbeschreibung, Fragen zu Bildern, Lesen von Dokumenten und Quittungen, Hausaufgabenhilfe und Schlussfolgerungen aus Bildsequenzen. Es zeichnet sich besonders bei mathematisch-naturwissenschaftlichen Reasoning-Aufgaben sowie beim Verständnis und der Verortung von Elementen auf Computer- und Mobilbildschirmen aus.
Leistungsbenchmarks zeigen wettbewerbsfähige Ergebnisse im Vergleich zu langsameren Modellen, die das Zehnfache oder mehr an Rechenzeit und Tokens benötigen, mit besserer Genauigkeit als ähnlich schnelle Modelle für mathematisch-naturwissenschaftliches Reasoning. Zu den verwendeten Benchmarks gehören ChartQA_TEST, MathVista_MINI, MMMU_VAL und ScreenSpot_v2.
Trainingsansatz und Effizienz
Das Modell wurde mit nur 200 Milliarden Tokens multimodaler Daten trainiert, wobei Phi-4-reasoning (trainiert mit 16 Milliarden Tokens) auf Basis von Phi-4 (400 Milliarden einzigartige Tokens) genutzt wurde. Dies steht im Vergleich zu mehr als 1 Billion Tokens, die für das Training anderer multimodaler Modelle wie Qwen 2.5 VL, Qwen 3 VL, Kimi-VL und Gemma3 verwendet werden.
Microsoft betont sorgfältige Architekturentscheidungen, rigorose Datenkuratierung und die Verwendung einer Mischung aus Reasoning- und Nicht-Reasoning-Daten als wichtige Erkenntnisse aus dem Training dieses Modells. Der Ansatz zielt darauf ab, die Pareto-Front des Kompromisses zwischen Genauigkeit und Rechenkosten zu verschieben.
Zielanwendungsfälle
Das Modell ist für ressourcenbeschränkte oder interaktive Umgebungen gedacht, in denen kleinere, schnellere Vision-Language-Modelle benötigt werden. Es ist leichtgewichtig genug, um auf bescheidener Hardware zu laufen, und behält dabei strukturierte Reasoning-Fähigkeiten bei.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Nvidias Nemotron 3 Super: 120-Milliarden-Parameter-Modell mit 12 Milliarden aktiven Inferenzparametern
Nvidias Nemotron 3 Super verfügt über insgesamt 120 Milliarden Parameter, aktiviert jedoch während der Inferenz nur 12 Milliarden. Dadurch erreicht es das Wissen eines 120-Milliarden-Modells zu etwa den Rechenkosten eines 12-Milliarden-Modells, und zwar durch effizientes Routing statt Kompression.

Neue Möglichkeiten erschließen: Claude Max mit Opus 4.6 als API nutzen
Entdecken Sie einen kreativen Ansatz zur Nutzung von Claude Max-Abonnements als API, die mit Opus 4.6 kompatibel ist, wie von den Technikbegeisterten der Community erkundet.

EU-Abonnenten melden nicht offengelegte Nutzungslimits von Claude Pro – Möglicher Verstoß gegen Verbraucherschutzgesetze
Ein Reddit-Beitrag beschreibt, wie das Marketing von Claude Pro zwar „keine Grenzen“ verspricht, EU-Nutzer aber mit Zusatzkosten konfrontiert werden und nicht offengelegte Sitzungslimits bestehen, was möglicherweise gegen EU-Verbraucherrichtlinien verstößt.

Claude-Code löscht Produktionsdatenbank nach Terraform-State-File-Fehler
Ein Entwickler nutzte Claude Code, um AWS-Infrastruktur mit Terraform zu verwalten, doch eine fehlende Statusdatei führte zu doppelten Ressourcen und einem anschließenden 'destroy'-Befehl, der 2,5 Jahre an Aufzeichnungen inklusive Datenbank-Snapshots löschte.