非結合型DiLoCo:低帯域幅でのデータセンター間における耐障害性のある分散トレーニング

✍️ OpenClawRadar📅 公開日: April 27, 2026🔗 Source
非結合型DiLoCo:低帯域幅でのデータセンター間における耐障害性のある分散トレーニング
Ad

Google DeepMindは、Decoupled DiLoCo(分散低通信)に関する論文を発表しました。これは、計算を非同期に通信する独立した「学習ユニット」に分離する分散トレーニングアーキテクチャです。これにより、従来の同期型アプローチよりもはるかに低い帯域幅要件で、地理的に分散したデータセンター間で大規模モデルをトレーニングできます。

主な詳細

  • 2つの先行技術を基盤としています:Pathways(非同期データフローシステム)とDiLoCo(データセンター間の帯域幅削減)。
  • トレーニングは、分離された学習ユニット(独立した計算アイランド)に分割されます。1つのユニットでチップ障害が発生しても、他のユニットには影響しません。システムは自己修復型で、ハードウェア障害により学習ユニット全体が失われても、トレーニングは継続され、ユニットが回復するとシームレスに再統合されます。
  • カオスエンジニアリングで検証済み—トレーニング実行中に人工的なハードウェア障害を注入。Decoupled DiLoCoは高い「グッドプット」(有用なトレーニング時間)を維持しましたが、従来の手法では障害発生時に性能が急落しました。
  • 異なる米国4地域にわたって120億パラメータモデルを、2〜5 Gbpsの広域ネットワーク(データセンター間の既存のインターネット接続で実現可能)を使用してトレーニングしました。
  • 従来のトレーニング手法と同じベンチマークML性能(Gemma 4モデルでテスト)を達成しました。
  • 従来の同期手法と比較して20倍以上高速であると報告されています。これは、通信が計算と重複され、ブロッキングのボトルネックを回避するためです。

アーキテクチャ概要

このシステムは、すべてのチップ間での同期型オールリデュースを必要とする代わりに、より長い計算期間に通信を組み込みます。これにより、システムの一部が他を待つ必要がある「ブロッキング」を回避します。結果として、どこにでもある未使用の計算リソースを活用できる、耐障害性のあるトレーニングが実現し、遊休リソースを有用な容量に変えます。

対象読者

複数のデータセンターにわたって大規模言語モデルやその他の最先端モデルをトレーニングするチームで、カスタムネットワークインフラを必要とせず、性能を犠牲にせずに耐障害性を求める方。

📖 全文ソース: HN AI Agents

Ad

👀 See Also

Meta OpenEnv AIハッカソン in インド、直接面接と3万ドルの賞金総額を提供
News

Meta OpenEnv AIハッカソン in インド、直接面接と3万ドルの賞金総額を提供

Metaは、Hugging FaceおよびPyTorchと協力して、インド初のOpenEnv AIハッカソンを開催します。開発者は、AIエージェント向けの強化学習環境を構築します。上位チームはMetaおよびHugging FaceのAIチームとの直接面接の機会と、30,000ドルの賞金プールを獲得できます。

OpenClawRadar
完全AI工程师:不再触碰代码
News

完全AI工程师:不再触碰代码

Max Heyerは、エージェントがすべてのコードを書き、自分はdiffを読んで仕様を書き、レビューするだけというワークフローを説明しています。重要なスキルはテイスト(味覚)であり、コードを評価することは書くことよりも難しいと述べています。

OpenClawRadar
OpenClaw .23 アップデートによるエージェントの問題とデータ損失
News

OpenClaw .23 アップデートによるエージェントの問題とデータ損失

OpenClaw .23アップデートにより、エージェントが応答しなくなり、タスクの実行に失敗し、ブラウザ拡張機能との接続が失われる問題が発生しています。修復コマンドを実行すると、JSON設定全体が削除される可能性があり、システムバックアップからの復旧が必要となります。

OpenClawRadar
OpenClaw 2026.3.22 アップデート:便利な機能も、注意すべき3つの重大な問題点
News

OpenClaw 2026.3.22 アップデート:便利な機能も、注意すべき3つの重大な問題点

OpenClaw 2026.3.22 アップデートでは、/btw コマンド、ヘルスモニターの設定機能、Telegram 返信の修正、エージェントごとの推論デフォルトなど、便利な機能が導入されています。しかし、3つの未解決の問題(#53158、#53202、#53195)があるため、監視なしで直ちにデプロイするのはリスクがあります。

OpenClawRadar