DeepMind DiscoRL Meta-Learning-Update-Regel von JAX zu PyTorch portiert

✍️ OpenClawRadar📅 Veröffentlicht: 9. März 2026🔗 Source
DeepMind DiscoRL Meta-Learning-Update-Regel von JAX zu PyTorch portiert
Ad

Ein Entwickler hat DeepMinds DiscoRL-Metalern-Update-Regel von JAX zu PyTorch portiert. Die Arbeit basiert auf dem Nature-Artikel von 2025 über DiscoRL, was für 'Distributed Compositional Reinforcement Learning' steht – einen Metalern-Ansatz zum Trainieren von Agenten, die sich schnell an neue Aufgaben anpassen können.

Ad

Implementierungsdetails

Der Port umfasst eine vollständige Implementierung, die auf GitHub unter https://github.com/asystemoffields/disco-torch verfügbar ist. Das Repository enthält:

  • Ein Colab-Notebook für Experimente
  • Eine API zur Nutzung der Implementierung
  • Vorab trainierte Gewichte, die auf Hugging Face gehostet werden

Der Entwickler nutzte Claude Code, um beim Portierungsprozess von JAX zu PyTorch zu unterstützen. Diese Art von Übersetzungsarbeit ist in der ML-Community üblich, wenn Forscher Implementierungen in verschiedenen Frameworks verfügbar machen möchten oder wenn sie lieber mit einem bestimmten Framework arbeiten.

Metalern-Ansätze wie DiscoRL sind darauf ausgelegt, Agenten zu befähigen, durch Nutzung früherer Erfahrungen schnell neue Aufgaben zu erlernen. Die 'Update-Regel' bezieht sich auf die mathematische Formulierung, wie die Politik oder Wertfunktion des Agenten während des Lernens angepasst wird. Das Portieren solcher Implementierungen ermöglicht PyTorch-Nutzern, mit diesen Techniken zu experimentieren, ohne in JAX arbeiten zu müssen.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Token Enhancer reduziert den Tokenverbrauch von Webseiten für KI-Agenten.
Werkzeuge

Token Enhancer reduziert den Tokenverbrauch von Webseiten für KI-Agenten.

Ein Entwickler stellte fest, dass rohes HTML von Webabrufen übermäßig viele Tokens im KI-Agenten-Kontext verbraucht, wobei Yahoo-Finance-Seiten 704.000 Tokens verwendeten. Durch den Einsatz von Token Enhancer als MCP-Server konnte dies auf 2.600 Tokens reduziert werden.

OpenClawRadar
Vier kostenlose Claude Code-Fähigkeiten für Prompt-Klarheit, Tutorials und Fehlerjagd
Werkzeuge

Vier kostenlose Claude Code-Fähigkeiten für Prompt-Klarheit, Tutorials und Fehlerjagd

Vier Apache 2.0, kein kostenpflichtiger Tarif Claude Code Skills: Prompter (Prompt-Umschreibung), Tutorial-Creator (kommentierte Code-Durchgänge), Bug-Echo (Post-Fix Anti-Pattern-Suche) und Bug-Prospector (Pre-Release-Audit mit 7 Analyse-Perspektiven).

OpenClawRadar
Memento Vault: Lokales Tool für dauerhaften Kontext in Claude-Code-Sitzungen
Werkzeuge

Memento Vault: Lokales Tool für dauerhaften Kontext in Claude-Code-Sitzungen

Memento Vault ist ein Satz von Hooks, die automatisch Sitzungsprotokolle erfassen, bewerten und atomare Notizen in einem lokalen Git-Repo speichern. Es bietet Zero-Cost-Retrieval über BM25 + Vektorsuche mit durchschnittlich 472 ms Latenz und injiziert relevante Kontexte zu Sitzungsbeginn, bei jeder Eingabe und bei Dateizugriffen.

OpenClawRadar
Verwendung eines lokalen LLM als Claude-Code-Subagent zur Reduzierung des Kontextverbrauchs
Werkzeuge

Verwendung eines lokalen LLM als Claude-Code-Subagent zur Reduzierung des Kontextverbrauchs

Ein Reddit-Nutzer zeigt, wie Claude Code Aufgaben an ein lokales LLM delegieren kann, das über LM Studio läuft, wobei der Dateiinhalt außerhalb von Claudes Kontext bleibt. Das Setup verwendet ein Python-Skript mit etwa 120 Zeilen und die Tool-Calling-API von LM Studio, um Dateioperationen lokal zu handhaben.

OpenClawRadar