Microsoft lanza el modelo multimodal Phi-4-reasoning-vision-15B con información sobre su entrenamiento.

✍️ OpenClawRadar📅 Publicado: 7 de marzo de 2026🔗 Source
Microsoft lanza el modelo multimodal Phi-4-reasoning-vision-15B con información sobre su entrenamiento.
Ad

Descripción general y disponibilidad del modelo

Phi-4-reasoning-vision-15B es un modelo de razonamiento multimodal de código abierto con 15 mil millones de parámetros que está disponible a través de Microsoft Foundry, HuggingFace y GitHub. Está diseñado como un modelo compacto que equilibra el poder de razonamiento, la eficiencia y los requisitos de datos de entrenamiento.

Capacidades y rendimiento

El modelo maneja una amplia gama de tareas de visión y lenguaje, incluyendo descripción de imágenes, hacer preguntas sobre imágenes, lectura de documentos y recibos, ayuda con tareas escolares e inferencia sobre cambios en secuencias de imágenes. Destaca especialmente en razonamiento matemático y científico, y en la comprensión y localización de elementos en pantallas de computadora y dispositivos móviles.

Los puntos de referencia de rendimiento muestran resultados competitivos en comparación con modelos más lentos que requieren diez veces o más tiempo de cómputo y tokens, con mejor precisión que modelos igualmente rápidos para razonamiento matemático y científico. Los puntos de referencia utilizados incluyen ChartQA_TEST, MathVista_MINI, MMMU_VAL y ScreenSpot_v2.

Ad

Enfoque de entrenamiento y eficiencia

El modelo fue entrenado con solo 200 mil millones de tokens de datos multimodales, aprovechando Phi-4-reasoning (entrenado con 16 mil millones de tokens) basado en Phi-4 (400 mil millones de tokens únicos). Esto se compara con más de 1 billón de tokens utilizados para entrenar otros modelos multimodales como Qwen 2.5 VL, Qwen 3 VL, Kimi-VL y Gemma3.

Microsoft enfatiza elecciones cuidadosas de arquitectura, curación rigurosa de datos y el uso de una mezcla de datos de razonamiento y no razonamiento como lecciones clave del entrenamiento de este modelo. El enfoque busca avanzar la frontera de Pareto del equilibrio entre precisión y costos de cómputo.

Casos de uso objetivo

El modelo está destinado a entornos con recursos limitados o interactivos donde se necesitan modelos de visión y lenguaje más pequeños y rápidos. Es lo suficientemente liviano para ejecutarse en hardware modesto mientras mantiene capacidades de razonamiento estructurado.

📖 Read the full source: HN AI Agents

Ad

👀 Ver también

Según informes, Nvidia está desarrollando NemoClaw de código abierto para competir con OpenClaw.
Noticias

Según informes, Nvidia está desarrollando NemoClaw de código abierto para competir con OpenClaw.

Informes recientes sugieren que Nvidia está trabajando en un proyecto de código abierto llamado NemoClaw, destinado a competir directamente con OpenClaw en herramientas de desarrollo de IA. Se espera que el proyecto se centre en mejorar el rendimiento, la escalabilidad y la flexibilidad para desarrolladores, manteniendo la compatibilidad con los flujos de trabajo modernos de IA.

OpenClawRadar
Claude.ai actualmente caído, errores de API elevados — 28 de abril de 2026
Noticias

Claude.ai actualmente caído, errores de API elevados — 28 de abril de 2026

Una actualización automática de estado activada desde la página oficial de estado de Claude informa que Claude.ai no está disponible y la API está experimentando tasas de error elevadas a partir del 2026-04-28T17:51:36.000Z.

OpenClawRadar
🚀 OpenClaw 2026.2.6 Lanzado – ¡Nuevos Modelos, Seguridad Mejorada y Actualizaciones Importantes!
Noticias

🚀 OpenClaw 2026.2.6 Lanzado – ¡Nuevos Modelos, Seguridad Mejorada y Actualizaciones Importantes!

OpenClaw 2026.2.6 lanza características revolucionarias, incluyendo nuevos modelos de IA y medidas de seguridad mejoradas. Sumérgete en las principales actualizaciones que están moldeando el futuro de la automatización.

OpenClawRadar
Los fundadores de xAI se marchan mientras el proyecto de codificación enfrenta desafíos.
Noticias

Los fundadores de xAI se marchan mientras el proyecto de codificación enfrenta desafíos.

Elon Musk ha expulsado a más fundadores de xAI mientras el esfuerzo de codificación con IA de la empresa encuentra dificultades. Las salidas se producen tras los problemas reportados en el desarrollo del proyecto de codificación con IA.

OpenClawRadar