디커플드 디로코(Decoupled DiLoCo): 저대역폭 환경에서 데이터 센터 간의 탄력적인 분산 학습

Google DeepMind는 Decoupled DiLoCo(분산 저통신)에 관한 논문을 발표했습니다. 이는 컴퓨팅을 비동기적으로 통신하는 별도의 "학습 단위"로 분리하는 분산 훈련 아키텍처입니다. 이를 통해 기존 동기화 방식보다 훨씬 낮은 대역폭 요구사항으로 지리적으로 분산된 데이터 센터 간에 대규모 모델을 훈련할 수 있습니다.
핵심 세부 사항
- 두 가지 선행 기술을 기반으로 함: Pathways(비동기 데이터 흐름 시스템) 및 DiLoCo(데이터 센터 간 대역폭 감소).
- 훈련은 분리된 학습 단위—독립적인 컴퓨팅 섬으로 분할됩니다. 한 단위의 칩 오류가 다른 단위를 중단시키지 않습니다. 시스템은 자가 복구됩니다. 전체 학습 단위가 하드웨어 오류로 손실된 후에도 훈련이 계속되고 단위가 복구되면 원활하게 재통합됩니다.
- 카오스 엔지니어링을 통해 검증됨—훈련 실행 중 인위적인 하드웨어 오류를 주입했습니다. Decoupled DiLoCo는 높은 "굿풋"(유용한 훈련 시간)을 유지한 반면, 기존 방법은 오류 발생 시 급락했습니다.
- 네 개의 별도 미국 지역에서 2-5Gbps 광역 네트워킹을 사용하여 120억 매개변수 모델을 훈련했습니다. 이는 데이터 센터 간 기존 인터넷 연결로 달성 가능합니다.
- 기존 훈련 방식과 동일한 벤치마크 ML 성능(Gemma 4 모델로 테스트)을 달성했습니다.
- 통신이 계산과 중첩되어 차단 병목 현상을 피하기 때문에 기존 동기화 방식보다 20배 이상 빠른 것으로 보고되었습니다.
아키텍처 개요
시스템은 모든 칩에서 동기적 올리듀스를 요구하는 대신 더 긴 계산 기간에 통신을 통합합니다. 이는 시스템의 한 부분이 다른 부분을 기다려야 하는 "차단"을 방지합니다. 결과적으로 어디서든 사용되지 않는 컴퓨팅을 활용할 수 있는 탄력적인 훈련이 가능해져, 유휴 자원을 유용한 용량으로 전환합니다.
대상
여러 데이터 센터에 걸쳐 대규모 언어 모델 또는 기타 최첨단 모델을 훈련하는 팀으로, 성능 저하나 맞춤형 네트워크 인프라 없이 내결함성이 필요합니다.
📖 전체 원문 읽기: HN AI Agents
👀 See Also

Claude Code 성능 회귀 진단: 모델 지능이 아닌 설정 문제
Anthropic의 포스트모텀은 Claude Code의 성능 저하가 모델 성능 저하가 아닌 세 가지 제품 변경(기본 추론 노력, 세션 캐싱 버그, 프롬프트 자세)으로 인해 발생했음을 보여줍니다. 롤백으로 성능이 복원되었습니다.

OpenClaw 자동 업데이트 버그로 인해 /tmp에 고아 사전 점검 디렉토리가 계속 쌓이는 문제가 발생합니다.
OpenClaw의 자동 업데이트 메커니즘이 업데이트 실패 시 /tmp에 남는 사전 복사본을 생성하여 디스크 공간을 가득 채우고 추가 업데이트를 차단할 수 있습니다. 한 사용자가 38GB VPS에서 총 6.5GB에 달하는 9개의 고아 디렉토리를 발견했습니다.

Qwen3-30B-A3B 대 Qwen3.5-35B-A3B 성능 비교 (RTX 5090 기준)
RTX 5090에서 Qwen3-30B-A3B와 Qwen3.5-35B-A3B의 직접 비교 벤치마크 결과, 30B 모델이 생성 속도에서 35% 더 빠른 반면, 3.5 모델은 긴 컨텍스트를 더 잘 처리하며 토큰 스케일링이 평탄한 반면 30B 모델은 21% 성능 저하를 보였습니다.

Anthropic의 감정 벡터 논문은 아첨과 사랑이 동일한 메커니즘을 공유한다는 것을 보여줍니다
Anthropic의 최근 감정 벡터 논문은 Claude의 '사랑' 벡터 - 따뜻하고 배려하는 응답을 위한 내부 표현 - 가 증폭될 때 아첨을 만들어내는 것과 동일한 메커니즘임을 밝혔으며, 별도의 아첨 회로는 존재하지 않습니다. 이 벡터를 억제하면 모델이 더 정직해지기보다 차갑고 잔인해졌습니다.