DeepMind DiscoRL Regra de Atualização de Meta Aprendizado Migrada do JAX para PyTorch

Um desenvolvedor portou a regra de atualização de meta-aprendizado DiscoRL da DeepMind do JAX para PyTorch. O trabalho é baseado no artigo da Nature de 2025 sobre DiscoRL, que significa 'Distributed Compositional Reinforcement Learning' (Aprendizado por Reforço Composicional Distribuído) — uma abordagem de meta-aprendizado para treinar agentes que podem se adaptar rapidamente a novas tarefas.
Detalhes da Implementação
A portabilidade inclui uma implementação completa disponível no GitHub em https://github.com/asystemoffields/disco-torch. O repositório contém:
- Um notebook Colab para experimentação
- Uma API para usar a implementação
- Pesos pré-treinados hospedados no Hugging Face
O desenvolvedor usou o Claude Code para auxiliar no processo de portabilidade do JAX para PyTorch. Esse tipo de trabalho de tradução é comum na comunidade de aprendizado de máquina quando pesquisadores querem disponibilizar implementações em diferentes frameworks ou quando preferem trabalhar com um framework em vez de outro.
Abordagens de meta-aprendizado como DiscoRL são projetadas para permitir que agentes aprendam novas tarefas rapidamente aproveitando experiências anteriores. A 'regra de atualização' refere-se à formulação matemática de como a política ou função de valor do agente é ajustada durante o aprendizado. Portar tais implementações permite que usuários do PyTorch experimentem essas técnicas sem precisar trabalhar no JAX.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Claude Code v2.1.126: Seletor de Modelo, Limpeza de Projeto, Correções no OAuth e Melhorias de Segurança
Claude Code v2.1.126 adiciona um seletor /model para gateways compatíveis com Anthropic, um novo comando claude project purge, corrige o login OAuth em WSL2/SSH/containers e corrige problemas de segurança com configurações gerenciadas e exposição da área de transferência no Windows.

Servidor MCP de Pares Conecta Sessões de Codificação de IA para Colaboração
Peers é um servidor MCP local que conecta sessões do Claude Code e do Codex, permitindo que elas se descubram, colaborem por meio de blocos de rascunho compartilhados, compartilhem artefatos como diffs e relatórios de teste e transfiram o contexto da sessão como markdown estruturado.

ClaudeClaw: Plugin de Código Gratuito do Claude para Agentes de IA Persistente em Plataformas de Mensagens
ClaudeClaw é um plugin gratuito e de código aberto para Claude Code, licenciado pelo MIT, que executa o Claude como um agente persistente no Slack, WhatsApp e Telegram. Requer Node.js 20+, Claude Code e sua própria chave de API da Anthropic, com isolamento em nível de sistema operacional via sandbox-runtime da Anthropic.

Claude Code v2.1.142: Novas flags de agentes claude, Opus 4.7 padrão e correções de bugs
Claude Code v2.1.142 adiciona oito novas flags para configurar sessões em segundo plano, alterna o modo rápido para Opus 4.7 por padrão e corrige mais de uma dúzia de bugs, incluindo timeout de ferramenta MCP, problemas do daemon durante suspensão/despertar no macOS e deadlocks em unidades de rede no Windows.