DeepMind DiscoRL Regla de Actualización de Metaaprendizaje Migrada de JAX a PyTorch

✍️ OpenClawRadar📅 Publicado: 9 de marzo de 2026🔗 Source
DeepMind DiscoRL Regla de Actualización de Metaaprendizaje Migrada de JAX a PyTorch
Ad

Un desarrollador ha adaptado la regla de actualización de metaaprendizaje DiscoRL de DeepMind de JAX a PyTorch. El trabajo se basa en el artículo de Nature de 2025 sobre DiscoRL, que significa 'Distributed Compositional Reinforcement Learning' (Aprendizaje por Refuerzo Distribuido y Composicional), un enfoque de metaaprendizaje para entrenar agentes que pueden adaptarse rápidamente a nuevas tareas.

Ad

Detalles de la Implementación

La adaptación incluye una implementación completa disponible en GitHub en https://github.com/asystemoffields/disco-torch. El repositorio contiene:

  • Un cuaderno de Colab para experimentación
  • Una API para usar la implementación
  • Pesos preentrenados alojados en Hugging Face

El desarrollador utilizó Claude Code para ayudar con el proceso de adaptación de JAX a PyTorch. Este tipo de trabajo de traducción es común en la comunidad de ML cuando los investigadores quieren hacer que las implementaciones estén disponibles en diferentes marcos de trabajo o cuando prefieren trabajar con un marco sobre otro.

Los enfoques de metaaprendizaje como DiscoRL están diseñados para permitir que los agentes aprendan nuevas tareas rápidamente aprovechando experiencias previas. La 'regla de actualización' se refiere a la formulación matemática de cómo se ajusta la política o función de valor del agente durante el aprendizaje. Adaptar tales implementaciones permite a los usuarios de PyTorch experimentar con estas técnicas sin necesidad de trabajar en JAX.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Revdiff: Visor de Diferencias en Terminal con Anotaciones en Línea para Agentes de IA
Herramientas

Revdiff: Visor de Diferencias en Terminal con Anotaciones en Línea para Agentes de IA

Revdiff es un revisor de diferencias TUI construido específicamente para revisar cambios de código generados por IA sin salir de las sesiones de terminal. Genera anotaciones estructuradas a stdout que pueden canalizarse directamente de vuelta a agentes de IA como Claude Code, creando un ciclo de revisión continuo.

OpenClawRadar
LAP: Más de 1.500 especificaciones de API compiladas para consumo por LLM con el fin de reducir las alucinaciones de Claude
Herramientas

LAP: Más de 1.500 especificaciones de API compiladas para consumo por LLM con el fin de reducir las alucinaciones de Claude

LAP es una herramienta que compila más de 1.500 especificaciones reales de API en un formato optimizado para LLM, proporcionando endpoints verificados y parámetros para evitar que agentes de programación de IA como Claude alucinen llamadas incorrectas a API.

OpenClawRadar
Conocimiento Cuervo: Un Complemento de Base de Conocimiento Buscable para Claude
Herramientas

Conocimiento Cuervo: Un Complemento de Base de Conocimiento Buscable para Claude

Knowledge Raven es una herramienta que permite a Claude buscar en tus documentos desde fuentes como Confluence, Notion, Google Drive, Dropbox y GitHub a través de un complemento de Claude Desktop o un servidor MCP, proporcionando búsqueda semántica, búsqueda por palabras clave y recuperación completa de documentos.

OpenClawRadar
Holaboss tiene como objetivo resolver el despliegue de agentes locales portátiles.
Herramientas

Holaboss tiene como objetivo resolver el despliegue de agentes locales portátiles.

Holaboss es un proyecto de código abierto que trata al trabajador de IA como un artefacto portátil con espacio de trabajo por trabajador, habilidades/aplicaciones locales, memoria persistente y un tiempo de ejecución que puede empaquetarse por separado de la aplicación de escritorio. Es compatible con pilas de modelos locales como Ollama y requiere Node.js 22+ en las máquinas de destino.

OpenClawRadar