DiscoRL DeepMind: Regla de Actualización de JAX a PyTorch

Un desarrollador ha adaptado la regla de actualización de metaaprendizaje DiscoRL de DeepMind de JAX a PyTorch. El trabajo se basa en el artículo de Nature de 2025 sobre DiscoRL, que significa 'Distributed Compositional Reinforcement Learning' (Aprendizaje por Refuerzo Distribuido y Composicional), un enfoque de metaaprendizaje para entrenar agentes que pueden adaptarse rápidamente a nuevas tareas.

Detalles de la Implementación

La adaptación incluye una implementación completa disponible en GitHub en https://github.com/asystemoffields/disco-torch. El repositorio contiene:

Un cuaderno de Colab para experimentación
Una API para usar la implementación
Pesos preentrenados alojados en Hugging Face

El desarrollador utilizó Claude Code para ayudar con el proceso de adaptación de JAX a PyTorch. Este tipo de trabajo de traducción es común en la comunidad de ML cuando los investigadores quieren hacer que las implementaciones estén disponibles en diferentes marcos de trabajo o cuando prefieren trabajar con un marco sobre otro.

Los enfoques de metaaprendizaje como DiscoRL están diseñados para permitir que los agentes aprendan nuevas tareas rápidamente aprovechando experiencias previas. La 'regla de actualización' se refiere a la formulación matemática de cómo se ajusta la política o función de valor del agente durante el aprendizaje. Adaptar tales implementaciones permite a los usuarios de PyTorch experimentar con estas técnicas sin necesidad de trabajar en JAX.

📖 Read the full source: r/LocalLLaMA

DeepMind DiscoRL Regla de Actualización de Metaaprendizaje Migrada de JAX a PyTorch

Detalles de la Implementación

👀 Ver también

Revdiff: Visor de Diferencias en Terminal con Anotaciones en Línea para Agentes de IA

LAP: Más de 1.500 especificaciones de API compiladas para consumo por LLM con el fin de reducir las alucinaciones de Claude

Conocimiento Cuervo: Un Complemento de Base de Conocimiento Buscable para Claude

Holaboss tiene como objetivo resolver el despliegue de agentes locales portátiles.