DiLoCo с развязкой: отказоустойчивое распределенное обучение между центрами обработки данных с низкой пропускной способностью

Google DeepMind опубликовала статью о Decoupled DiLoCo (Distributed Low-Communication) — распределенной архитектуре обучения, которая разделяет вычисления на отдельные «обучающие блоки», общающиеся асинхронно. Это позволяет обучать большие модели на географически распределенных центрах обработки данных с гораздо меньшими требованиями к пропускной способности, чем в традиционных синхронизированных подходах.
Ключевые детали
- Основана на двух предыдущих разработках: Pathways (асинхронная система потока данных) и DiLoCo (сниженная пропускная способность между центрами обработки данных).
- Обучение разделено на обучающие блоки — независимые вычислительные острова. Сбой чипа в одном блоке не прерывает работу других. Система является самовосстанавливающейся: после потери целого обучающего блока из-за аппаратного сбоя обучение продолжается, а блок бесшовно интегрируется обратно после восстановления.
- Проверено с помощью chaos engineering — во время обучения вносились искусственные аппаратные сбои. Decoupled DiLoCo сохранял высокий «goodput» (полезное время обучения), в то время как традиционные методы резко падали при сбоях.
- Обучили модель с 12 миллиардами параметров в четырех разных регионах США с использованием 2-5 Гбит/с глобальной сети — что достижимо с существующим интернет-соединением между дата-центрами.
- Достигнута та же производительность ML (протестировано на моделях Gemma 4), что и при традиционном обучении.
- Сообщается о более чем 20-кратном ускорении по сравнению с традиционными методами синхронизации, поскольку связь перекрывается с вычислениями, избегая блокирующих узких мест.
Обзор архитектуры
Система включает связь в более длительные периоды вычислений вместо того, чтобы требовать синхронного all-reduce по всем чипам. Это позволяет избежать «блокировки», когда одна часть системы ждет другую. Результат — устойчивое обучение, способное использовать простаивающие вычисления в любом месте, превращая разрозненные ресурсы в полезную мощность.
Для кого это
Для команд, обучающих большие языковые модели или другие передовые модели в нескольких центрах обработки данных, которым нужна отказоустойчивость без потери производительности и без необходимости в специальной сетевой инфраструктуре.
📖 Прочитать полный источник: HN AI Agents
👀 Смотрите также

Клод-Код v2.1.32: Усовершенствование автоматизации и точности кодирования
Последний релиз Claude-Code, версия 2.1.32, приносит важные улучшения в области AI программирования и автоматизации. Узнайте ключевые функции и влияние на сообщество этого обновления, теперь доступного на GitHub.

Claude Code v2.1.146: команда /code-review, исправление пагинации, исправление Windows PowerShell
Claude Code v2.1.146 переименовывает /simplify в /code-review с опциональным уровнем усилий, исправляет пагинацию MCP и инструмент Windows PowerShell, улучшает надежность автообновления и производительность отображения diff.

AlphaEvolve: агент на базе Gemini от DeepMind оптимизирует алгоритмы в геномике, энергосетях и цепях TPC
AlphaEvolve, кодирующий агент на базе Gemini от Google DeepMind, снизил ошибки обнаружения вариантов DeepConsensus на 30%, повысил осуществимость AC Optimal Power Flow GNN с 14% до 88% и уменьшил ошибку квантовой схемы в 10 раз.

Claude-Code v2.1.51: Исправления безопасности, улучшения производительности и новая функция удаленного управления.
Claude-Code v2.1.51 добавляет подкоманду удаленного управления для внешних сборок, исправляет две уязвимости безопасности в хуках, улучшает производительность BashTool и сокращает использование контекста путем сохранения больших результатов инструментов на диск при 50 тыс. символов.