DeepMind DiscoRL Regla de Actualización de Metaaprendizaje Migrada de JAX a PyTorch

Un desarrollador ha adaptado la regla de actualización de metaaprendizaje DiscoRL de DeepMind de JAX a PyTorch. El trabajo se basa en el artículo de Nature de 2025 sobre DiscoRL, que significa 'Distributed Compositional Reinforcement Learning' (Aprendizaje por Refuerzo Distribuido y Composicional), un enfoque de metaaprendizaje para entrenar agentes que pueden adaptarse rápidamente a nuevas tareas.
Detalles de la Implementación
La adaptación incluye una implementación completa disponible en GitHub en https://github.com/asystemoffields/disco-torch. El repositorio contiene:
- Un cuaderno de Colab para experimentación
- Una API para usar la implementación
- Pesos preentrenados alojados en Hugging Face
El desarrollador utilizó Claude Code para ayudar con el proceso de adaptación de JAX a PyTorch. Este tipo de trabajo de traducción es común en la comunidad de ML cuando los investigadores quieren hacer que las implementaciones estén disponibles en diferentes marcos de trabajo o cuando prefieren trabajar con un marco sobre otro.
Los enfoques de metaaprendizaje como DiscoRL están diseñados para permitir que los agentes aprendan nuevas tareas rápidamente aprovechando experiencias previas. La 'regla de actualización' se refiere a la formulación matemática de cómo se ajusta la política o función de valor del agente durante el aprendizaje. Adaptar tales implementaciones permite a los usuarios de PyTorch experimentar con estas técnicas sin necesidad de trabajar en JAX.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

El complemento MCP de caché de prompts reduce automáticamente los costos de la API de Claude al identificar contextos estables.
El complemento MCP de caché de prompts identifica automáticamente partes estables del contexto, como prompts del sistema y definiciones de herramientas, luego las marca para la función de caché de Anthropic para reducir los costos de API en un 80-92% en sesiones de codificación.

Usando /probe para detectar alucinaciones de IA antes de escribir código.
Un desarrollador comparte una técnica llamada /probe que obliga a los planes generados por IA a hacer afirmaciones numeradas con valores esperados, luego sondea el sistema real para detectar discrepancias. El método detectó cuatro errores fácticos en la descripción de Claude de su propio formato JSONL que habrían causado errores en el código.

ApexClaw: Agente de IA de Telegram de código abierto con más de 85 herramientas para automatización web, voz y correo electrónico.
ApexClaw es un agente de IA de Telegram de código abierto escrito en Go que proporciona más de 85 herramientas integradas, incluyendo navegación web con Chrome sin interfaz gráfica, procesamiento de notas de voz, integración con Gmail y ejecución de scripts de terminal. Es autoalojado y utiliza el motor z.ai para el razonamiento.

El Framework AutoAgents Rust Agrega Enlaces de Python para Prototipado
AutoAgents, un framework multiagente basado en Rust, ahora tiene enlaces para Python que permiten a los desarrolladores prototipar en Python mientras mantienen el mismo núcleo de ejecución en Rust, las interfaces de proveedores, el modelo de canalización y la semántica de agentes. Los enlaces permiten experimentar con modelos de IA locales sin sistemas externos.