Formation Distribuée Résiliente avec DiLoCo Découplé

Google DeepMind a publié un article sur Decoupled DiLoCo (Distributed Low-Communication), une architecture d'entraînement distribué qui dissocie le calcul en « unités d'apprentissage » séparées communiquant de manière asynchrone. Cela permet d'entraîner de grands modèles dans des centres de données géographiquement répartis avec des exigences de bande passante bien inférieures à celles des approches synchronisées traditionnelles.

Détails clés

S'appuie sur deux avancées antérieures : Pathways (système de flux de données asynchrone) et DiLoCo (bande passante réduite entre centres de données).
L'entraînement est réparti sur des unités d'apprentissage découplées — des îlots de calcul indépendants. Une panne de puce dans une unité n'interrompt pas les autres. Le système est auto-réparateur : après la perte d'une unité d'apprentissage entière due à une panne matérielle, l'entraînement continue et l'unité est réintégrée de manière transparente une fois rétablie.
Validé par l'ingénierie du chaos — pannes matérielles artificielles injectées lors des sessions d'entraînement. Decoupled DiLoCo a maintenu un « goodput » (temps d'entraînement utile) élevé tandis que les méthodes conventionnelles chutaient en cas de panne.
A entraîné un modèle de 12 milliards de paramètres dans quatre régions américaines distinctes en utilisant un réseau étendu (WAN) de 2 à 5 Gbps — réalisable avec la connectivité Internet existante entre centres de données.
A atteint les mêmes performances ML de référence (testées avec les modèles Gemma 4) que les approches d'entraînement conventionnelles.
A rapporté une vitesse plus de 20 fois supérieure à celle des méthodes de synchronisation conventionnelles car la communication est superposée au calcul, évitant les goulots d'étranglement bloquants.

Aperçu de l'architecture

Le système intègre la communication dans des périodes de calcul plus longues au lieu d'exiger une réduction globale (all-reduce) synchrone sur toutes les puces. Cela évite les « blocages » où une partie du système doit attendre une autre. Il en résulte un entraînement résilient qui peut exploiter le calcul inutilisé n'importe où, transformant les ressources éparpillées en capacité utile.

À qui cela s'adresse

Équipes entraînant de grands modèles de langage ou d'autres modèles de pointe dans plusieurs centres de données, qui ont besoin de tolérance aux pannes sans sacrifier les performances ni nécessiter d'infrastructure réseau personnalisée.

📖 Lire la source complète : HN AI Agents

DiLoCo Découplé : Formation Distribuée Résiliente entre Centres de Données avec Faible Bande Passante

Détails clés

Aperçu de l'architecture

À qui cela s'adresse

👀 See Also

Claude Code v2.1.121 : Corrections du chargement permanent MCP, élagage des plugins, défilement du terminal et correctifs de fuite mémoire

Les utilisateurs de Claude Code atteignent les limites d'utilisation plus vite que prévu, des bogues sont soupçonnés.

Anthropic double les limites d'utilisation de Claude Code, signe un accord de calcul avec SpaceX

Qwen3.5-122B-A10B-MINT-MLX fonctionne parfaitement sur M5 Pro avec 64 Go de RAM.