Resumen Semanal de IA Multimodal: Holotron-12B, Nemotron Omni, GlyphPrinter y Más

Desarrollos de IA Multimodal Abierta
Aquí están los principales lanzamientos y proyectos de IA multimodal de código abierto de la semana pasada, seleccionados desde r/LocalLLaMA.
Holotron-12B
Holotron-12B es un modelo de agente de uso informático abierto disponible en Hugging Face. Está optimizado para alto rendimiento y contextos largos con múltiples imágenes, sirviendo como una alternativa abierta para el ecosistema de agentes de uso informático más allá de las API cerradas.
NVIDIA Nemotron Omni + Isaac GR00T N1.7
NVIDIA lanzó modelos abiertos Nemotron 3 omni que integran lenguaje, visión y voz en una sola plataforma. El GR00T N1.7 es un modelo de visión-lenguaje-acción específicamente diseñado para aplicaciones robóticas.
GlyphPrinter
GlyphPrinter aborda la precisión en la representación de texto en generadores de imágenes de IA utilizando Optimización Directa de Preferencias Agrupadas por Región. Equilibra el estilo artístico con una representación precisa del texto y proporciona pesos abiertos. Este enfoque corrige errores ortográficos localizados en imágenes generadas.
SparkVSR
El modelo de superresolución de video de Google mejora la calidad y claridad del video. Este proyecto se centra en mejorar la resolución de video mediante procesamiento de IA.
SegviGen
SegviGen permite la segmentación de objetos 3D mediante colorización al reutilizar generadores de imágenes 3D. El método plantea la segmentación como una tarea de colorización y según reportes utiliza menos del 1% de los datos de entrenamiento requeridos por métodos anteriores. El proyecto incluye código abierto y una demostración.
OpenMAIC
OpenMAIC (Aula Interactiva Multiagente) convierte cualquier tema o documento en un aula interactiva con profesores y compañeros de clase de IA. Utiliza orquestación multiagente para generar diapositivas, cuestionarios, simulaciones y discusiones.
SkillNet
SkillNet proporciona infraestructura abierta para crear, evaluar y organizar habilidades de agentes de IA a escala. El sistema permite a los agentes pasar de experiencias transitorias a un dominio duradero.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Usuarios de Anthropic Claude Informan Restricción Silenciosa de Funciones en Cuentas de Pago
Un suscriptor pagador de Claude informa que la ejecución de shell/bash dejó de funcionar en todas las sesiones sin notificación, con restricciones integradas en el prompt del sistema a nivel de despliegue. El usuario presentó múltiples tickets de soporte y formularios de apelación pero no recibió respuesta mientras continuaba siendo facturado.

Anthropic pagando a SpaceX $15B/año por cómputo hasta 2029
El documento de OPI de SpaceX revela que Anthropic paga $1.25B/mes hasta mayo de 2029 por cómputo. El acuerdo respalda el entrenamiento de IA en las instalaciones Colossus 1 y 2.

Características destacadas de OpenClaw y los riesgos (con soluciones)
Explora las características destacadas de OpenClaw, los posibles riesgos que conllevan y soluciones innovadoras para mitigar estos desafíos.

Minions de Stripe: Mejorando la Productividad de los Desarrolladores con Agentes de Codificación de Un Solo Uso de Extremo a Extremo.
Los Minions de Stripe son agentes de codificación de un solo uso, de extremo a extremo, diseñados para aumentar la productividad de los desarrolladores al automatizar tareas complejas dentro del ecosistema de Stripe.