DeepMind DiscoRL Regra de Atualização de Meta Aprendizado Migrada do JAX para PyTorch

✍️ OpenClawRadar📅 Publicado: March 9, 2026🔗 Source
DeepMind DiscoRL Regra de Atualização de Meta Aprendizado Migrada do JAX para PyTorch
Ad

Um desenvolvedor portou a regra de atualização de meta-aprendizado DiscoRL da DeepMind do JAX para PyTorch. O trabalho é baseado no artigo da Nature de 2025 sobre DiscoRL, que significa 'Distributed Compositional Reinforcement Learning' (Aprendizado por Reforço Composicional Distribuído) — uma abordagem de meta-aprendizado para treinar agentes que podem se adaptar rapidamente a novas tarefas.

Ad

Detalhes da Implementação

A portabilidade inclui uma implementação completa disponível no GitHub em https://github.com/asystemoffields/disco-torch. O repositório contém:

  • Um notebook Colab para experimentação
  • Uma API para usar a implementação
  • Pesos pré-treinados hospedados no Hugging Face

O desenvolvedor usou o Claude Code para auxiliar no processo de portabilidade do JAX para PyTorch. Esse tipo de trabalho de tradução é comum na comunidade de aprendizado de máquina quando pesquisadores querem disponibilizar implementações em diferentes frameworks ou quando preferem trabalhar com um framework em vez de outro.

Abordagens de meta-aprendizado como DiscoRL são projetadas para permitir que agentes aprendam novas tarefas rapidamente aproveitando experiências anteriores. A 'regra de atualização' refere-se à formulação matemática de como a política ou função de valor do agente é ajustada durante o aprendizado. Portar tais implementações permite que usuários do PyTorch experimentem essas técnicas sem precisar trabalhar no JAX.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Claude Code v2.1.126: Seletor de Modelo, Limpeza de Projeto, Correções no OAuth e Melhorias de Segurança
Tools

Claude Code v2.1.126: Seletor de Modelo, Limpeza de Projeto, Correções no OAuth e Melhorias de Segurança

Claude Code v2.1.126 adiciona um seletor /model para gateways compatíveis com Anthropic, um novo comando claude project purge, corrige o login OAuth em WSL2/SSH/containers e corrige problemas de segurança com configurações gerenciadas e exposição da área de transferência no Windows.

OpenClawRadar
Servidor MCP de Pares Conecta Sessões de Codificação de IA para Colaboração
Tools

Servidor MCP de Pares Conecta Sessões de Codificação de IA para Colaboração

Peers é um servidor MCP local que conecta sessões do Claude Code e do Codex, permitindo que elas se descubram, colaborem por meio de blocos de rascunho compartilhados, compartilhem artefatos como diffs e relatórios de teste e transfiram o contexto da sessão como markdown estruturado.

OpenClawRadar
ClaudeClaw: Plugin de Código Gratuito do Claude para Agentes de IA Persistente em Plataformas de Mensagens
Tools

ClaudeClaw: Plugin de Código Gratuito do Claude para Agentes de IA Persistente em Plataformas de Mensagens

ClaudeClaw é um plugin gratuito e de código aberto para Claude Code, licenciado pelo MIT, que executa o Claude como um agente persistente no Slack, WhatsApp e Telegram. Requer Node.js 20+, Claude Code e sua própria chave de API da Anthropic, com isolamento em nível de sistema operacional via sandbox-runtime da Anthropic.

OpenClawRadar
Claude Code v2.1.142: Novas flags de agentes claude, Opus 4.7 padrão e correções de bugs
Tools

Claude Code v2.1.142: Novas flags de agentes claude, Opus 4.7 padrão e correções de bugs

Claude Code v2.1.142 adiciona oito novas flags para configurar sessões em segundo plano, alterna o modo rápido para Opus 4.7 por padrão e corrige mais de uma dúzia de bugs, incluindo timeout de ferramenta MCP, problemas do daemon durante suspensão/despertar no macOS e deadlocks em unidades de rede no Windows.

OpenClawRadar