Phi-4-reasoning-vision-15B: modelo multimodal de código abierto de Microsoft

Descripción general y disponibilidad del modelo

Phi-4-reasoning-vision-15B es un modelo de razonamiento multimodal de código abierto con 15 mil millones de parámetros que está disponible a través de Microsoft Foundry, HuggingFace y GitHub. Está diseñado como un modelo compacto que equilibra el poder de razonamiento, la eficiencia y los requisitos de datos de entrenamiento.

Capacidades y rendimiento

El modelo maneja una amplia gama de tareas de visión y lenguaje, incluyendo descripción de imágenes, hacer preguntas sobre imágenes, lectura de documentos y recibos, ayuda con tareas escolares e inferencia sobre cambios en secuencias de imágenes. Destaca especialmente en razonamiento matemático y científico, y en la comprensión y localización de elementos en pantallas de computadora y dispositivos móviles.

Los puntos de referencia de rendimiento muestran resultados competitivos en comparación con modelos más lentos que requieren diez veces o más tiempo de cómputo y tokens, con mejor precisión que modelos igualmente rápidos para razonamiento matemático y científico. Los puntos de referencia utilizados incluyen ChartQA_TEST, MathVista_MINI, MMMU_VAL y ScreenSpot_v2.

Enfoque de entrenamiento y eficiencia

El modelo fue entrenado con solo 200 mil millones de tokens de datos multimodales, aprovechando Phi-4-reasoning (entrenado con 16 mil millones de tokens) basado en Phi-4 (400 mil millones de tokens únicos). Esto se compara con más de 1 billón de tokens utilizados para entrenar otros modelos multimodales como Qwen 2.5 VL, Qwen 3 VL, Kimi-VL y Gemma3.

Microsoft enfatiza elecciones cuidadosas de arquitectura, curación rigurosa de datos y el uso de una mezcla de datos de razonamiento y no razonamiento como lecciones clave del entrenamiento de este modelo. El enfoque busca avanzar la frontera de Pareto del equilibrio entre precisión y costos de cómputo.

Casos de uso objetivo

El modelo está destinado a entornos con recursos limitados o interactivos donde se necesitan modelos de visión y lenguaje más pequeños y rápidos. Es lo suficientemente liviano para ejecutarse en hardware modesto mientras mantiene capacidades de razonamiento estructurado.

📖 Read the full source: HN AI Agents

Microsoft lanza el modelo multimodal Phi-4-reasoning-vision-15B con información sobre su entrenamiento.

Descripción general y disponibilidad del modelo

Capacidades y rendimiento

Enfoque de entrenamiento y eficiencia

Casos de uso objetivo

👀 Ver también

Según informes, Nvidia está desarrollando NemoClaw de código abierto para competir con OpenClaw.

Claude.ai actualmente caído, errores de API elevados — 28 de abril de 2026

🚀 OpenClaw 2026.2.6 Lanzado – ¡Nuevos Modelos, Seguridad Mejorada y Actualizaciones Importantes!

Los fundadores de xAI se marchan mientras el proyecto de codificación enfrenta desafíos.