DiLoCo Desacoplado: Treinamento Distribuído Resiliente com Baixa Largura de Banda

O Google DeepMind publicou um artigo sobre Decoupled DiLoCo (Distributed Low-Communication), uma arquitetura de treinamento distribuído que desacopla a computação em "unidades de aprendizado" separadas que se comunicam de forma assíncrona. Isso permite treinar modelos grandes em centros de dados geograficamente distribuídos com requisitos de largura de banda muito menores do que as abordagens sincronizadas tradicionais.

Detalhes Principais

Baseia-se em dois avanços anteriores: Pathways (sistema de fluxo de dados assíncrono) e DiLoCo (largura de banda reduzida entre centros de dados).
O treinamento é dividido em unidades de aprendizado desacopladas — ilhas de computação independentes. Uma falha de chip em uma unidade não interrompe as outras. O sistema é auto-recuperável: após perder uma unidade de aprendizado inteira devido a falha de hardware, o treinamento continua e a unidade é reintegrada perfeitamente quando se recupera.
Validado com engenharia do caos — falhas de hardware artificiais foram injetadas durante execuções de treinamento. O Decoupled DiLoCo manteve alta "goodput" (tempo útil de treinamento), enquanto métodos convencionais despencaram sob falha.
Treinou um modelo de 12 bilhões de parâmetros em quatro regiões dos EUA usando rede de longa distância de 2-5 Gbps — alcançável com a conectividade de internet existente entre datacenters.
Alcançou o mesmo desempenho de ML avaliado (testado com modelos Gemma 4) que as abordagens convencionais de treinamento.
Relatado mais de 20× mais rápido que métodos de sincronização convencionais porque a comunicação é sobreposta à computação, evitando gargalos de bloqueio.

Visão Geral da Arquitetura

O sistema incorpora a comunicação em períodos de computação mais longos, em vez de exigir redução total síncrona em todos os chips. Isso evita "bloqueio" onde uma parte do sistema precisa esperar por outra. O resultado é um treinamento resiliente que pode aproveitar a computação não utilizada em qualquer lugar, transformando recursos ociosos em capacidade útil.

Para Quem é Indicado

Equipes que treinam grandes modelos de linguagem ou outros modelos de ponta em vários centros de dados que precisam de tolerância a falhas sem sacrificar o desempenho ou exigir infraestrutura de rede personalizada.

📖 Leia a fonte completa: HN AI Agents

DiLoCo Desacoplado: Treinamento Distribuído Resiliente Entre Data Centers com Baixa Largura de Banda

Detalhes Principais

Visão Geral da Arquitetura

Para Quem é Indicado

👀 See Also

Filme de Cannes custou US$ 500 mil para ser feito, US$ 400 mil foram custos de computação de IA

Índia e EAU fazem parceria em soberania de IA com supercomputadores Cerebras

Qwen3.5-27B Comparação de Desempenho entre 8 bits e 16 bits

Google Chrome baixa silenciosamente modelo Gemini Nano de 4GB sem consentimento