DiLoCo Découplé : Formation Distribuée Résiliente entre Centres de Données avec Faible Bande Passante

✍️ OpenClawRadar📅 Publié: April 27, 2026🔗 Source
DiLoCo Découplé : Formation Distribuée Résiliente entre Centres de Données avec Faible Bande Passante
Ad

Google DeepMind a publié un article sur Decoupled DiLoCo (Distributed Low-Communication), une architecture d'entraînement distribué qui dissocie le calcul en « unités d'apprentissage » séparées communiquant de manière asynchrone. Cela permet d'entraîner de grands modèles dans des centres de données géographiquement répartis avec des exigences de bande passante bien inférieures à celles des approches synchronisées traditionnelles.

Détails clés

  • S'appuie sur deux avancées antérieures : Pathways (système de flux de données asynchrone) et DiLoCo (bande passante réduite entre centres de données).
  • L'entraînement est réparti sur des unités d'apprentissage découplées — des îlots de calcul indépendants. Une panne de puce dans une unité n'interrompt pas les autres. Le système est auto-réparateur : après la perte d'une unité d'apprentissage entière due à une panne matérielle, l'entraînement continue et l'unité est réintégrée de manière transparente une fois rétablie.
  • Validé par l'ingénierie du chaos — pannes matérielles artificielles injectées lors des sessions d'entraînement. Decoupled DiLoCo a maintenu un « goodput » (temps d'entraînement utile) élevé tandis que les méthodes conventionnelles chutaient en cas de panne.
  • A entraîné un modèle de 12 milliards de paramètres dans quatre régions américaines distinctes en utilisant un réseau étendu (WAN) de 2 à 5 Gbps — réalisable avec la connectivité Internet existante entre centres de données.
  • A atteint les mêmes performances ML de référence (testées avec les modèles Gemma 4) que les approches d'entraînement conventionnelles.
  • A rapporté une vitesse plus de 20 fois supérieure à celle des méthodes de synchronisation conventionnelles car la communication est superposée au calcul, évitant les goulots d'étranglement bloquants.
Ad

Aperçu de l'architecture

Le système intègre la communication dans des périodes de calcul plus longues au lieu d'exiger une réduction globale (all-reduce) synchrone sur toutes les puces. Cela évite les « blocages » où une partie du système doit attendre une autre. Il en résulte un entraînement résilient qui peut exploiter le calcul inutilisé n'importe où, transformant les ressources éparpillées en capacité utile.

À qui cela s'adresse

Équipes entraînant de grands modèles de langage ou d'autres modèles de pointe dans plusieurs centres de données, qui ont besoin de tolérance aux pannes sans sacrifier les performances ni nécessiter d'infrastructure réseau personnalisée.

📖 Lire la source complète : HN AI Agents

Ad

👀 See Also

La bulle financière cachée dans l'infrastructure de l'IA – Points clés
News

La bulle financière cachée dans l'infrastructure de l'IA – Points clés

Une analyse critique de l'essor des dépenses d'infrastructure IA, avertissant d'une bulle non durable similaire aux précédents krachs technologiques. Le PDF soutient que les dépenses d'investissement massives en GPU et centres de données dépassent largement les revenus réels générés.

OpenClawRadar
Critique de la frontière d'abstraction et de l'approche d'intégration des services du MCP
News

Critique de la frontière d'abstraction et de l'approche d'intégration des services du MCP

Une discussion sur Reddit critique le MCP pour avoir regroupé l'accès aux API, les outils efficaces et les connaissances du domaine en une seule couche, affirmant que cela crée des interfaces limitées par rapport aux API sous-jacentes. Le message utilise Lattice comme exemple où leur API publique ne couvre que les flux de travail d'administration des RH malgré une API GraphQL complète.

OpenClawRadar
Loi sur l'IA de Schiff-Rounds dans l'éducation : Ce que les développeurs doivent savoir sur le projet de loi sur la culture numérique en IA pour la maternelle à la 12e année
News

Loi sur l'IA de Schiff-Rounds dans l'éducation : Ce que les développeurs doivent savoir sur le projet de loi sur la culture numérique en IA pour la maternelle à la 12e année

OpenAI, Google et Microsoft soutiennent le LIFT AI Act, qui finance des subventions de la NSF pour des programmes d'éducation à l'IA de la maternelle à la terminale, la formation des enseignants et des outils d'évaluation.

OpenClawRadar
Application Claude Desktop Télécharge Silencieusement un Fichier de 13 Go à Chaque Lancement Sans Option de Désactivation
News

Application Claude Desktop Télécharge Silencieusement un Fichier de 13 Go à Chaque Lancement Sans Option de Désactivation

L'application de bureau Claude télécharge automatiquement un fichier d'environ 12,95 Go appelé claudevm.bundle à chaque lancement, même pour les utilisateurs qui n'utilisent pas Claude Code. Le support d'Anthropic a confirmé que cela est intentionnel et que les utilisateurs individuels n'ont aucun moyen de le désactiver.

OpenClawRadar