DiLoCo с развязкой: отказоустойчивое распределенное обучение между центрами обработки данных с низкой пропускной способностью

✍️ OpenClawRadar📅 Опубликовано: 27 апреля 2026 г.🔗 Source
DiLoCo с развязкой: отказоустойчивое распределенное обучение между центрами обработки данных с низкой пропускной способностью
Ad

Google DeepMind опубликовала статью о Decoupled DiLoCo (Distributed Low-Communication) — распределенной архитектуре обучения, которая разделяет вычисления на отдельные «обучающие блоки», общающиеся асинхронно. Это позволяет обучать большие модели на географически распределенных центрах обработки данных с гораздо меньшими требованиями к пропускной способности, чем в традиционных синхронизированных подходах.

Ключевые детали

  • Основана на двух предыдущих разработках: Pathways (асинхронная система потока данных) и DiLoCo (сниженная пропускная способность между центрами обработки данных).
  • Обучение разделено на обучающие блоки — независимые вычислительные острова. Сбой чипа в одном блоке не прерывает работу других. Система является самовосстанавливающейся: после потери целого обучающего блока из-за аппаратного сбоя обучение продолжается, а блок бесшовно интегрируется обратно после восстановления.
  • Проверено с помощью chaos engineering — во время обучения вносились искусственные аппаратные сбои. Decoupled DiLoCo сохранял высокий «goodput» (полезное время обучения), в то время как традиционные методы резко падали при сбоях.
  • Обучили модель с 12 миллиардами параметров в четырех разных регионах США с использованием 2-5 Гбит/с глобальной сети — что достижимо с существующим интернет-соединением между дата-центрами.
  • Достигнута та же производительность ML (протестировано на моделях Gemma 4), что и при традиционном обучении.
  • Сообщается о более чем 20-кратном ускорении по сравнению с традиционными методами синхронизации, поскольку связь перекрывается с вычислениями, избегая блокирующих узких мест.
Ad

Обзор архитектуры

Система включает связь в более длительные периоды вычислений вместо того, чтобы требовать синхронного all-reduce по всем чипам. Это позволяет избежать «блокировки», когда одна часть системы ждет другую. Результат — устойчивое обучение, способное использовать простаивающие вычисления в любом месте, превращая разрозненные ресурсы в полезную мощность.

Для кого это

Для команд, обучающих большие языковые модели или другие передовые модели в нескольких центрах обработки данных, которым нужна отказоустойчивость без потери производительности и без необходимости в специальной сетевой инфраструктуре.

📖 Прочитать полный источник: HN AI Agents

Ad

👀 Смотрите также

Клод-Код v2.1.32: Усовершенствование автоматизации и точности кодирования
Новости

Клод-Код v2.1.32: Усовершенствование автоматизации и точности кодирования

Последний релиз Claude-Code, версия 2.1.32, приносит важные улучшения в области AI программирования и автоматизации. Узнайте ключевые функции и влияние на сообщество этого обновления, теперь доступного на GitHub.

OpenClawRadar
Claude Code v2.1.146: команда /code-review, исправление пагинации, исправление Windows PowerShell
Новости

Claude Code v2.1.146: команда /code-review, исправление пагинации, исправление Windows PowerShell

Claude Code v2.1.146 переименовывает /simplify в /code-review с опциональным уровнем усилий, исправляет пагинацию MCP и инструмент Windows PowerShell, улучшает надежность автообновления и производительность отображения diff.

OpenClawRadar
AlphaEvolve: агент на базе Gemini от DeepMind оптимизирует алгоритмы в геномике, энергосетях и цепях TPC
Новости

AlphaEvolve: агент на базе Gemini от DeepMind оптимизирует алгоритмы в геномике, энергосетях и цепях TPC

AlphaEvolve, кодирующий агент на базе Gemini от Google DeepMind, снизил ошибки обнаружения вариантов DeepConsensus на 30%, повысил осуществимость AC Optimal Power Flow GNN с 14% до 88% и уменьшил ошибку квантовой схемы в 10 раз.

OpenClawRadar
Claude-Code v2.1.51: Исправления безопасности, улучшения производительности и новая функция удаленного управления.
Новости

Claude-Code v2.1.51: Исправления безопасности, улучшения производительности и новая функция удаленного управления.

Claude-Code v2.1.51 добавляет подкоманду удаленного управления для внешних сборок, исправляет две уязвимости безопасности в хуках, улучшает производительность BashTool и сокращает использование контекста путем сохранения больших результатов инструментов на диск при 50 тыс. символов.

OpenClawRadar