디커플드 디로코: 저대역폭 WAN에서 LLM 분산 학습 방법

Google DeepMind는 Decoupled DiLoCo(분산 저통신)에 관한 논문을 발표했습니다. 이는 컴퓨팅을 비동기적으로 통신하는 별도의 "학습 단위"로 분리하는 분산 훈련 아키텍처입니다. 이를 통해 기존 동기화 방식보다 훨씬 낮은 대역폭 요구사항으로 지리적으로 분산된 데이터 센터 간에 대규모 모델을 훈련할 수 있습니다.

핵심 세부 사항

두 가지 선행 기술을 기반으로 함: Pathways(비동기 데이터 흐름 시스템) 및 DiLoCo(데이터 센터 간 대역폭 감소).
훈련은 분리된 학습 단위—독립적인 컴퓨팅 섬으로 분할됩니다. 한 단위의 칩 오류가 다른 단위를 중단시키지 않습니다. 시스템은 자가 복구됩니다. 전체 학습 단위가 하드웨어 오류로 손실된 후에도 훈련이 계속되고 단위가 복구되면 원활하게 재통합됩니다.
카오스 엔지니어링을 통해 검증됨—훈련 실행 중 인위적인 하드웨어 오류를 주입했습니다. Decoupled DiLoCo는 높은 "굿풋"(유용한 훈련 시간)을 유지한 반면, 기존 방법은 오류 발생 시 급락했습니다.
네 개의 별도 미국 지역에서 2-5Gbps 광역 네트워킹을 사용하여 120억 매개변수 모델을 훈련했습니다. 이는 데이터 센터 간 기존 인터넷 연결로 달성 가능합니다.
기존 훈련 방식과 동일한 벤치마크 ML 성능(Gemma 4 모델로 테스트)을 달성했습니다.
통신이 계산과 중첩되어 차단 병목 현상을 피하기 때문에 기존 동기화 방식보다 20배 이상 빠른 것으로 보고되었습니다.

아키텍처 개요

시스템은 모든 칩에서 동기적 올리듀스를 요구하는 대신 더 긴 계산 기간에 통신을 통합합니다. 이는 시스템의 한 부분이 다른 부분을 기다려야 하는 "차단"을 방지합니다. 결과적으로 어디서든 사용되지 않는 컴퓨팅을 활용할 수 있는 탄력적인 훈련이 가능해져, 유휴 자원을 유용한 용량으로 전환합니다.