Microsoft veröffentlicht Phi-4-reasoning-vision-15B multimodales Modell mit Trainingserkenntnissen

Modellübersicht und Verfügbarkeit
Phi-4-reasoning-vision-15B ist ein offenes multimodales Reasoning-Modell mit 15 Milliarden Parametern, das über Microsoft Foundry, HuggingFace und GitHub verfügbar ist. Es wurde als kompaktes Modell konzipiert, das Reasoning-Leistung, Effizienz und Trainingsdatenbedarf in Einklang bringt.
Fähigkeiten und Leistung
Das Modell bewältigt eine breite Palette von Vision-Language-Aufgaben, darunter Bildbeschreibung, Fragen zu Bildern, Lesen von Dokumenten und Quittungen, Hausaufgabenhilfe und Schlussfolgerungen aus Bildsequenzen. Es zeichnet sich besonders bei mathematisch-naturwissenschaftlichen Reasoning-Aufgaben sowie beim Verständnis und der Verortung von Elementen auf Computer- und Mobilbildschirmen aus.
Leistungsbenchmarks zeigen wettbewerbsfähige Ergebnisse im Vergleich zu langsameren Modellen, die das Zehnfache oder mehr an Rechenzeit und Tokens benötigen, mit besserer Genauigkeit als ähnlich schnelle Modelle für mathematisch-naturwissenschaftliches Reasoning. Zu den verwendeten Benchmarks gehören ChartQA_TEST, MathVista_MINI, MMMU_VAL und ScreenSpot_v2.
Trainingsansatz und Effizienz
Das Modell wurde mit nur 200 Milliarden Tokens multimodaler Daten trainiert, wobei Phi-4-reasoning (trainiert mit 16 Milliarden Tokens) auf Basis von Phi-4 (400 Milliarden einzigartige Tokens) genutzt wurde. Dies steht im Vergleich zu mehr als 1 Billion Tokens, die für das Training anderer multimodaler Modelle wie Qwen 2.5 VL, Qwen 3 VL, Kimi-VL und Gemma3 verwendet werden.
Microsoft betont sorgfältige Architekturentscheidungen, rigorose Datenkuratierung und die Verwendung einer Mischung aus Reasoning- und Nicht-Reasoning-Daten als wichtige Erkenntnisse aus dem Training dieses Modells. Der Ansatz zielt darauf ab, die Pareto-Front des Kompromisses zwischen Genauigkeit und Rechenkosten zu verschieben.
Zielanwendungsfälle
Das Modell ist für ressourcenbeschränkte oder interaktive Umgebungen gedacht, in denen kleinere, schnellere Vision-Language-Modelle benötigt werden. Es ist leichtgewichtig genug, um auf bescheidener Hardware zu laufen, und behält dabei strukturierte Reasoning-Fähigkeiten bei.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Claude Code v2.1.170: Claude Fable 5 Modellzugriff und VS Code Sitzungsbehebung
Claude Code v2.1.170 führt Claude Fable 5 ein, ein Mythos-Klassenmodell mit beispiellosen Fähigkeiten, und behebt das Speichern von Sitzungstranskripten im integrierten Terminal von VS Code.

Subquadratic stellt 12 Millionen Token Kontextfenster für KI-Modelle vor
Subquadratic veröffentlicht ein 12-Millionen-Token-Kontextfenster und sprengt damit frühere Grenzen für LLM-Inferenz, sodass ganze Codebasen in einem einzigen Durchlauf verarbeitet werden können.

Claude fügt Gesprächen interaktive Diagramme und Grafiken direkt im Text hinzu.
Claude erstellt jetzt benutzerdefinierte Diagramme, Grafiken und Visualisierungen direkt in Chat-Konversationen, sodass Nutzer Visualisierungen anpassen und verändern können, während sich Diskussionen entwickeln. Die Funktion ist in der Beta-Version für alle Tariftypen verfügbar und erscheint inline anstatt in Seitenleisten.

Bewertung der Claude-Fähigkeiten & Regressionstests mit Snowflake Cortex Agent
Ein produktiver Claude-Kreditrisiko-Agent auf dem Snowflake Cortex Agent benötigt Regressionstests für Skill-Änderungen. Derzeit evaluiert das Team die Ergebnisse manuell anhand bestehender BI-Abfragen und sucht nach Automatisierung.