DeepMind DiscoRL Règle de Mise à Jour par Apprentissage Méta Portée de JAX à PyTorch

✍️ OpenClawRadar📅 Publié: March 9, 2026🔗 Source
DeepMind DiscoRL Règle de Mise à Jour par Apprentissage Méta Portée de JAX à PyTorch
Ad

Un développeur a porté la règle de mise à jour de méta-apprentissage DiscoRL de DeepMind de JAX à PyTorch. Ce travail est basé sur l'article de Nature 2025 concernant DiscoRL, qui signifie 'Distributed Compositional Reinforcement Learning' (Apprentissage par Renforcement Compositionnel Distribué) — une approche de méta-apprentissage pour entraîner des agents capables de s'adapter rapidement à de nouvelles tâches.

Ad

Détails de l'implémentation

Le portage inclut une implémentation complète disponible sur GitHub à l'adresse https://github.com/asystemoffields/disco-torch. Le dépôt contient :

  • Un notebook Colab pour l'expérimentation
  • Une API pour utiliser l'implémentation
  • Des poids pré-entraînés hébergés sur Hugging Face

Le développeur a utilisé Claude Code pour aider au processus de portage de JAX à PyTorch. Ce type de travail de traduction est courant dans la communauté du ML lorsque les chercheurs souhaitent rendre des implémentations disponibles dans différents frameworks ou lorsqu'ils préfèrent travailler avec un framework plutôt qu'un autre.

Les approches de méta-apprentissage comme DiscoRL sont conçues pour permettre aux agents d'apprendre rapidement de nouvelles tâches en tirant parti d'expériences antérieures. La 'règle de mise à jour' fait référence à la formulation mathématique de la manière dont la politique ou la fonction de valeur de l'agent est ajustée pendant l'apprentissage. Porter de telles implémentations permet aux utilisateurs de PyTorch d'expérimenter avec ces techniques sans avoir à travailler dans JAX.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

CogniLayer : Un serveur MCP pour la mémoire persistante dans Claude Code
Tools

CogniLayer : Un serveur MCP pour la mémoire persistante dans Claude Code

CogniLayer est un serveur MCP open-source qui fournit à Claude Code une mémoire persistante entre les sessions en utilisant une base de données SQLite avec recherche en texte intégral FTS5 et des embeddings vectoriels. Il résout le problème de Claude qui oublie le contexte du projet entre les sessions.

OpenClawRadar
docvault : Générez des documentations API locales pour réduire les hallucinations de l'IA
Tools

docvault : Générez des documentations API locales pour réduire les hallucinations de l'IA

docvault est un outil qui génère des références d'API en markdown à partir du code source pour aider Claude et autres LLM à arrêter d'halluciner des signatures de fonctions. Il fonctionne pour les crates Rust et les packages Python, produit un fichier markdown à deux niveaux, et inclut un plugin Claude Code pour une utilisation sans intervention.

OpenClawRadar
🦀
Tools

Serveur MCP TextExpander permet à l'IA Claude d'accéder et de gérer votre bibliothèque de snippets

TextExpander a lancé un serveur MCP gratuit qui connecte votre bibliothèque de snippets à Claude. Claude peut lister, rechercher, créer et modifier des snippets en masse, y compris des champs dynamiques comme les dates et les menus déroulants.

OpenClawRadar
iai-mcp : Un démon local pour une mémoire OpenClaw persistante entre sessions
Tools

iai-mcp : Un démon local pour une mémoire OpenClaw persistante entre sessions

iai-mcp est un démon open-source qui capture toutes les conversations OpenClaw, les stocke dans trois niveaux de mémoire avec des plongements neuronaux locaux et un chiffrement AES-256, et réinjecte le contexte pertinent lors de nouvelles sessions — rappel textuel >99 %, récupération <100 ms, coût de démarrage de session <3k tokens.

OpenClawRadar