Обновление правила метаобучения DeepMind DiscoRL перенесено с JAX на PyTorch.

✍️ OpenClawRadar📅 Опубликовано: 9 марта 2026 г.🔗 Source
Обновление правила метаобучения DeepMind DiscoRL перенесено с JAX на PyTorch.
Ad

Разработчик перенёс правило метаобучения DiscoRL от DeepMind из JAX в PyTorch. Работа основана на статье 2025 года в Nature о DiscoRL, что означает «Распределённое композиционное обучение с подкреплением» — метаподход к обучению агентов, способных быстро адаптироваться к новым задачам.

Ad

Детали реализации

Перенос включает полную реализацию, доступную на GitHub по адресу https://github.com/asystemoffields/disco-torch. Репозиторий содержит:

  • Блокнот Colab для экспериментов
  • API для использования реализации
  • Предобученные веса, размещённые на Hugging Face

Разработчик использовал Claude Code для помощи в процессе переноса из JAX в PyTorch. Такой тип переводческой работы распространён в сообществе машинного обучения, когда исследователи хотят сделать реализации доступными в разных фреймворках или предпочитают работать с одним фреймворком вместо другого.

Метаподходы, такие как DiscoRL, предназначены для того, чтобы агенты могли быстро изучать новые задачи, используя предыдущий опыт. «Правило обновления» относится к математической формулировке того, как политика или функция ценности агента корректируется во время обучения. Перенос таких реализаций позволяет пользователям PyTorch экспериментировать с этими техниками без необходимости работать в JAX.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Vibe Hosting: Интеграция Claude Code MCP для развертывания с поддержкой ИИ
Инструменты

Vibe Hosting: Интеграция Claude Code MCP для развертывания с поддержкой ИИ

Платформа Vibe Hosting от NameOcean интегрирует Claude Code MCP для создания и развертывания проектов с помощью команд на естественном языке. Сервис предлагает бесплатные SSL-сертификаты, домены, DNS и настройку VPS для статических сайтов, а также приложений на Node.js, Python, Django и Go.

OpenClawRadar
nah: Контекстно-зависимый охранник разрешений для Claude Code
Инструменты

nah: Контекстно-зависимый охранник разрешений для Claude Code

nah — это PreToolUse-хук, который перехватывает каждый вызов инструмента в Claude Code, классифицируя команды по типам действий, таким как filesystem_read или git_history_rewrite, и применяя политики на основе контекста. Он запускает детерминированный классификатор за миллисекунды с возможностью эскалации к LLM для неоднозначных случаев.

OpenClawRadar
Сессионный поиск: локальный полнотекстовый поиск для сессий Claude Code и Codex, теперь в строке меню
Инструменты

Сессионный поиск: локальный полнотекстовый поиск для сессий Claude Code и Codex, теперь в строке меню

Session Search индексирует локальные транскрипты Claude Code и Codex с помощью SQLite FTS, обеспечивая глубокий полнотекстовый поиск по ошибкам, командам, именам файлов и решениям — доступный из строки меню macOS с подсвеченными фрагментами.

OpenClawRadar
Создание голосового агента с задержкой менее 500 мс: архитектура и анализ производительности
Инструменты

Создание голосового агента с задержкой менее 500 мс: архитектура и анализ производительности

Разработчик создал голосового агента с нуля, достигнув сквозной задержки около 400 мс с полной потоковой обработкой STT → LLM → TTS. Ключевые идеи включают рассмотрение голоса как проблемы очередности реплик, использование семантического определения конца реплики и размещение всех компонентов в одном месте для минимальной задержки.

OpenClawRadar