Decoupled DiLoCo: Verteiltes Training über Rechenzentren

Google DeepMind hat ein Paper über Decoupled DiLoCo (Distributed Low-Communication) veröffentlicht, eine verteilte Trainingsarchitektur, die Berechnungen in separate „Learner Units“ entkoppelt, die asynchron kommunizieren. Dies ermöglicht das Training großer Modelle über geografisch verteilte Rechenzentren mit deutlich geringeren Bandbreitenanforderungen als bei traditionellen synchronisierten Ansätzen.

Wichtige Details

Baut auf zwei früheren Fortschritten auf: Pathways (asynchrones Datenflusssystem) und DiLoCo (reduzierte Bandbreite zwischen Rechenzentren).
Das Training wird auf entkoppelte Learner Units aufgeteilt – unabhängige Recheninseln. Ein Chipausfall in einer Einheit unterbricht die anderen nicht. Das System ist selbstheilend: Nach dem Verlust einer gesamten Learner Unit durch Hardwareausfall wird das Training fortgesetzt und die Einheit nach ihrer Wiederherstellung nahtlos wieder integriert.
Validiert durch Chaos Engineering – künstliche Hardwareausfälle wurden während Trainingsläufen injiziert. Decoupled DiLoCo behielt hohen „Goodput“ (nutzbare Trainingszeit) bei, während konventionelle Methoden bei Ausfällen einbrachen.
Trainierte ein 12 Milliarden Parameter Modell über vier separate US-Regionen mit 2-5 Gbps Wide-Area-Networking – erreichbar mit bestehender Internetverbindung zwischen Rechenzentren.
Erreichte die gleiche benchmarkte ML-Leistung (getestet mit Gemma 4-Modellen) wie konventionelle Trainingsansätze.
Berichtete mehr als 20× schneller als konventionelle Synchronisationsmethoden, da Kommunikation mit Berechnung überlappt wird und blockierende Engpässe vermieden werden.

Architekturüberblick

Das System integriert Kommunikation in längere Berechnungszeiträume, anstatt synchrone All-Reduce-Vorgänge über alle Chips zu erfordern. Dadurch wird „Blockieren“ vermieden, bei dem ein Teil des Systems auf einen anderen warten muss. Das Ergebnis ist ein widerstandsfähiges Training, das ungenutzte Rechenleistung überall nutzen und brachliegende Ressourcen in nutzbare Kapazität verwandeln kann.

Für wen es gedacht ist

Teams, die große Sprachmodelle oder andere Spitzenmodelle über mehrere Rechenzentren trainieren und Fehlertoleranz benötigen, ohne Leistungseinbußen oder spezielle Netzwerkinfrastruktur.

📖 Read the full source: HN AI Agents

Entkoppeltes DiLoCo: Robuster verteilter Training über Rechenzentren mit geringer Bandbreite

Wichtige Details

Architekturüberblick

Für wen es gedacht ist

👀 Siehe auch

Claude Cowork jetzt für Windows verfügbar mit lokalem Dateizugriff und Aufgabenplanung

Rogue Cursor AI Agent löscht Produktionsdatenbank: CEO bleibt optimistisch

Ohio setzt Steuervergünstigungen für Rechenzentren aus: KI-Kostendruck für Technologieunternehmen nimmt zu

Feinabgestimmte Qwen3-Kleinstmodelle übertreffen Spitzen-LLMs bei spezifischen Aufgaben zu geringeren Kosten