DiLoCo Desacoplado: Entrenamiento Distribuido Resiliente entre Centros de Datos con Bajo Ancho de Banda

Google DeepMind publicó un artículo sobre Decoupled DiLoCo (Distributed Low-Communication), una arquitectura de entrenamiento distribuido que separa la computación en "unidades de aprendizaje" independientes que se comunican de forma asíncrona. Esto permite entrenar modelos grandes a través de centros de datos geográficamente distribuidos con requisitos de ancho de banda mucho más bajos que los enfoques sincrónicos tradicionales.
Detalles clave
- Se basa en dos avances anteriores: Pathways (sistema de flujo de datos asíncrono) y DiLoCo (ancho de banda reducido entre centros de datos).
- El entrenamiento se divide en unidades de aprendizaje separadas: islas de computación independientes. Un fallo en un chip de una unidad no interrumpe a las demás. El sistema es autocurativo: tras perder una unidad entera por un fallo de hardware, el entrenamiento continúa y la unidad se reintegra sin problemas una vez que se recupera.
- Validado con ingeniería del caos: se inyectaron fallos de hardware artificiales durante las ejecuciones de entrenamiento. Decoupled DiLoCo mantuvo un alto "goodput" (tiempo de entrenamiento útil) mientras que los métodos convencionales se desplomaban ante los fallos.
- Entrenó un modelo de 12 mil millones de parámetros en cuatro regiones distintas de EE. UU. utilizando redes de área amplia de 2-5 Gbps, algo alcanzable con la conectividad a Internet existente entre centros de datos.
- Alcanzó el mismo rendimiento de ML en pruebas comparativas (probado con modelos Gemma 4) que los enfoques de entrenamiento convencionales.
- Reportó ser más de 20 veces más rápido que los métodos de sincronización convencionales porque la comunicación se superpone con la computación, evitando cuellos de botella de bloqueo.
Resumen de la arquitectura
El sistema incorpora la comunicación en periodos de computación más largos en lugar de requerir all-reduce síncrono en todos los chips. Esto evita el "bloqueo" en el que una parte del sistema debe esperar a otra. El resultado es un entrenamiento resistente que puede aprovechar la computación no utilizada en cualquier lugar, convirtiendo recursos dispersos en capacidad útil.
Para quién es
Equipos que entrenan modelos de lenguaje grandes u otros modelos de frontera en múltiples centros de datos que necesitan tolerancia a fallos sin sacrificar rendimiento ni requerir infraestructura de red personalizada.
📖 Lee la fuente completa: HN AI Agents
👀 Ver también

Cambios de configuración con Kimi 2.5 y Opus 4.6
Un usuario está evaluando el rendimiento de Kimi 2.5 en el manejo de varias tareas, centrándose especialmente en su capacidad para gestionar cambios de configuración.

Error de tiempo de espera en el inicio de sesión OAuth de Claude Code en Windows
La versión 2.1.92 de Claude Code tiene un error donde los usuarios de Windows experimentan fallos de inicio de sesión con OAuth con un error de tiempo de espera de 15000ms, bloqueando completamente el acceso al asistente de programación con IA.

Apple Core AI Framework: Primer vistazo a la base del agente de IA emergente de Apple
La nueva página de documentación del framework Core AI de Apple ya está disponible, aunque el contenido está detrás de un muro de JavaScript. Analizamos lo que esto significa para el desarrollo de agentes de IA en plataformas Apple.

Seis Paralelismos Respaldados por la Investigación entre los Modos de Falla de los LLM y la Cognición del TDAH
Un desarrollador con TDAH identifica seis paralelismos entre los patrones de fallo de los LLM y la ciencia cognitiva del TDAH, respaldados por investigaciones independientes sobre procesamiento asociativo, confabulación, limitaciones de la memoria de trabajo, completado de patrones, dependencia de la estructura y continuidad del hilo.