Обновление правила метаобучения DeepMind DiscoRL перенесено с JAX на PyTorch.

Разработчик перенёс правило метаобучения DiscoRL от DeepMind из JAX в PyTorch. Работа основана на статье 2025 года в Nature о DiscoRL, что означает «Распределённое композиционное обучение с подкреплением» — метаподход к обучению агентов, способных быстро адаптироваться к новым задачам.
Детали реализации
Перенос включает полную реализацию, доступную на GitHub по адресу https://github.com/asystemoffields/disco-torch. Репозиторий содержит:
- Блокнот Colab для экспериментов
- API для использования реализации
- Предобученные веса, размещённые на Hugging Face
Разработчик использовал Claude Code для помощи в процессе переноса из JAX в PyTorch. Такой тип переводческой работы распространён в сообществе машинного обучения, когда исследователи хотят сделать реализации доступными в разных фреймворках или предпочитают работать с одним фреймворком вместо другого.
Метаподходы, такие как DiscoRL, предназначены для того, чтобы агенты могли быстро изучать новые задачи, используя предыдущий опыт. «Правило обновления» относится к математической формулировке того, как политика или функция ценности агента корректируется во время обучения. Перенос таких реализаций позволяет пользователям PyTorch экспериментировать с этими техниками без необходимости работать в JAX.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Vibe Hosting: Интеграция Claude Code MCP для развертывания с поддержкой ИИ
Платформа Vibe Hosting от NameOcean интегрирует Claude Code MCP для создания и развертывания проектов с помощью команд на естественном языке. Сервис предлагает бесплатные SSL-сертификаты, домены, DNS и настройку VPS для статических сайтов, а также приложений на Node.js, Python, Django и Go.

nah: Контекстно-зависимый охранник разрешений для Claude Code
nah — это PreToolUse-хук, который перехватывает каждый вызов инструмента в Claude Code, классифицируя команды по типам действий, таким как filesystem_read или git_history_rewrite, и применяя политики на основе контекста. Он запускает детерминированный классификатор за миллисекунды с возможностью эскалации к LLM для неоднозначных случаев.

Сессионный поиск: локальный полнотекстовый поиск для сессий Claude Code и Codex, теперь в строке меню
Session Search индексирует локальные транскрипты Claude Code и Codex с помощью SQLite FTS, обеспечивая глубокий полнотекстовый поиск по ошибкам, командам, именам файлов и решениям — доступный из строки меню macOS с подсвеченными фрагментами.

Создание голосового агента с задержкой менее 500 мс: архитектура и анализ производительности
Разработчик создал голосового агента с нуля, достигнув сквозной задержки около 400 мс с полной потоковой обработкой STT → LLM → TTS. Ключевые идеи включают рассмотрение голоса как проблемы очередности реплик, использование семантического определения конца реплики и размещение всех компонентов в одном месте для минимальной задержки.