Resumen IA Multimodal: Holotron-12B, Nemotron Omni, GlyphPrinter

Desarrollos de IA Multimodal Abierta

Aquí están los principales lanzamientos y proyectos de IA multimodal de código abierto de la semana pasada, seleccionados desde r/LocalLLaMA.

Holotron-12B

Holotron-12B es un modelo de agente de uso informático abierto disponible en Hugging Face. Está optimizado para alto rendimiento y contextos largos con múltiples imágenes, sirviendo como una alternativa abierta para el ecosistema de agentes de uso informático más allá de las API cerradas.

NVIDIA Nemotron Omni + Isaac GR00T N1.7

NVIDIA lanzó modelos abiertos Nemotron 3 omni que integran lenguaje, visión y voz en una sola plataforma. El GR00T N1.7 es un modelo de visión-lenguaje-acción específicamente diseñado para aplicaciones robóticas.

GlyphPrinter

GlyphPrinter aborda la precisión en la representación de texto en generadores de imágenes de IA utilizando Optimización Directa de Preferencias Agrupadas por Región. Equilibra el estilo artístico con una representación precisa del texto y proporciona pesos abiertos. Este enfoque corrige errores ortográficos localizados en imágenes generadas.

SparkVSR

El modelo de superresolución de video de Google mejora la calidad y claridad del video. Este proyecto se centra en mejorar la resolución de video mediante procesamiento de IA.

SegviGen

SegviGen permite la segmentación de objetos 3D mediante colorización al reutilizar generadores de imágenes 3D. El método plantea la segmentación como una tarea de colorización y según reportes utiliza menos del 1% de los datos de entrenamiento requeridos por métodos anteriores. El proyecto incluye código abierto y una demostración.

OpenMAIC

OpenMAIC (Aula Interactiva Multiagente) convierte cualquier tema o documento en un aula interactiva con profesores y compañeros de clase de IA. Utiliza orquestación multiagente para generar diapositivas, cuestionarios, simulaciones y discusiones.

SkillNet

SkillNet proporciona infraestructura abierta para crear, evaluar y organizar habilidades de agentes de IA a escala. El sistema permite a los agentes pasar de experiencias transitorias a un dominio duradero.

📖 Read the full source: r/LocalLLaMA

Resumen Semanal de IA Multimodal: Holotron-12B, Nemotron Omni, GlyphPrinter y Más

Desarrollos de IA Multimodal Abierta

Holotron-12B

NVIDIA Nemotron Omni + Isaac GR00T N1.7

GlyphPrinter

SparkVSR

SegviGen

OpenMAIC

SkillNet

👀 Ver también

Los cambios en el límite de tasa de Slack interrumpen la recuperación de contexto de OpenClaw

Los Registros de Sesión del Agente de Codificación se Almacenan Localmente, Podrían Habilitar el Entrenamiento Federado Abierto

Claude-Code v2.1.30 lanzado con mejoras en PDF y OAuth.

El Atlantic informa sobre el aumento de la violencia anti-IA y la reacción política