Decoupled DiLoCo: Отказоустойчивое распределенное обучение LLM

Google DeepMind опубликовала статью о Decoupled DiLoCo (Distributed Low-Communication) — распределенной архитектуре обучения, которая разделяет вычисления на отдельные «обучающие блоки», общающиеся асинхронно. Это позволяет обучать большие модели на географически распределенных центрах обработки данных с гораздо меньшими требованиями к пропускной способности, чем в традиционных синхронизированных подходах.

Ключевые детали

Основана на двух предыдущих разработках: Pathways (асинхронная система потока данных) и DiLoCo (сниженная пропускная способность между центрами обработки данных).
Обучение разделено на обучающие блоки — независимые вычислительные острова. Сбой чипа в одном блоке не прерывает работу других. Система является самовосстанавливающейся: после потери целого обучающего блока из-за аппаратного сбоя обучение продолжается, а блок бесшовно интегрируется обратно после восстановления.
Проверено с помощью chaos engineering — во время обучения вносились искусственные аппаратные сбои. Decoupled DiLoCo сохранял высокий «goodput» (полезное время обучения), в то время как традиционные методы резко падали при сбоях.
Обучили модель с 12 миллиардами параметров в четырех разных регионах США с использованием 2-5 Гбит/с глобальной сети — что достижимо с существующим интернет-соединением между дата-центрами.
Достигнута та же производительность ML (протестировано на моделях Gemma 4), что и при традиционном обучении.
Сообщается о более чем 20-кратном ускорении по сравнению с традиционными методами синхронизации, поскольку связь перекрывается с вычислениями, избегая блокирующих узких мест.

Обзор архитектуры

Система включает связь в более длительные периоды вычислений вместо того, чтобы требовать синхронного all-reduce по всем чипам. Это позволяет избежать «блокировки», когда одна часть системы ждет другую. Результат — устойчивое обучение, способное использовать простаивающие вычисления в любом месте, превращая разрозненные ресурсы в полезную мощность.

Для кого это

Для команд, обучающих большие языковые модели или другие передовые модели в нескольких центрах обработки данных, которым нужна отказоустойчивость без потери производительности и без необходимости в специальной сетевой инфраструктуре.

📖 Прочитать полный источник: HN AI Agents

DiLoCo с развязкой: отказоустойчивое распределенное обучение между центрами обработки данных с низкой пропускной способностью

Ключевые детали

Обзор архитектуры

Для кого это

👀 Смотрите также

Клод-Код v2.1.32: Усовершенствование автоматизации и точности кодирования

Claude Code v2.1.146: команда /code-review, исправление пагинации, исправление Windows PowerShell

AlphaEvolve: агент на базе Gemini от DeepMind оптимизирует алгоритмы в геномике, энергосетях и цепях TPC

Claude-Code v2.1.51: Исправления безопасности, улучшения производительности и новая функция удаленного управления.