DiLoCo Desacoplado: Entrena LLMs con WAN 2-5 Gbps

Google DeepMind publicó un artículo sobre Decoupled DiLoCo (Distributed Low-Communication), una arquitectura de entrenamiento distribuido que separa la computación en "unidades de aprendizaje" independientes que se comunican de forma asíncrona. Esto permite entrenar modelos grandes a través de centros de datos geográficamente distribuidos con requisitos de ancho de banda mucho más bajos que los enfoques sincrónicos tradicionales.

Detalles clave

Se basa en dos avances anteriores: Pathways (sistema de flujo de datos asíncrono) y DiLoCo (ancho de banda reducido entre centros de datos).
El entrenamiento se divide en unidades de aprendizaje separadas: islas de computación independientes. Un fallo en un chip de una unidad no interrumpe a las demás. El sistema es autocurativo: tras perder una unidad entera por un fallo de hardware, el entrenamiento continúa y la unidad se reintegra sin problemas una vez que se recupera.
Validado con ingeniería del caos: se inyectaron fallos de hardware artificiales durante las ejecuciones de entrenamiento. Decoupled DiLoCo mantuvo un alto "goodput" (tiempo de entrenamiento útil) mientras que los métodos convencionales se desplomaban ante los fallos.
Entrenó un modelo de 12 mil millones de parámetros en cuatro regiones distintas de EE. UU. utilizando redes de área amplia de 2-5 Gbps, algo alcanzable con la conectividad a Internet existente entre centros de datos.
Alcanzó el mismo rendimiento de ML en pruebas comparativas (probado con modelos Gemma 4) que los enfoques de entrenamiento convencionales.
Reportó ser más de 20 veces más rápido que los métodos de sincronización convencionales porque la comunicación se superpone con la computación, evitando cuellos de botella de bloqueo.

Resumen de la arquitectura

El sistema incorpora la comunicación en periodos de computación más largos en lugar de requerir all-reduce síncrono en todos los chips. Esto evita el "bloqueo" en el que una parte del sistema debe esperar a otra. El resultado es un entrenamiento resistente que puede aprovechar la computación no utilizada en cualquier lugar, convirtiendo recursos dispersos en capacidad útil.

Para quién es

Equipos que entrenan modelos de lenguaje grandes u otros modelos de frontera en múltiples centros de datos que necesitan tolerancia a fallos sin sacrificar rendimiento ni requerir infraestructura de red personalizada.

📖 Lee la fuente completa: HN AI Agents

DiLoCo Desacoplado: Entrenamiento Distribuido Resiliente entre Centros de Datos con Bajo Ancho de Banda

Detalles clave

Resumen de la arquitectura

Para quién es

👀 Ver también

Cambios de configuración con Kimi 2.5 y Opus 4.6

Error de tiempo de espera en el inicio de sesión OAuth de Claude Code en Windows

Apple Core AI Framework: Primer vistazo a la base del agente de IA emergente de Apple

Seis Paralelismos Respaldados por la Investigación entre los Modos de Falla de los LLM y la Cognición del TDAH