Google DeepMind demonstriert fehlertolerantes verteiltes Training über vier US-Regionen
Google DeepMind hat Ergebnisse für Decoupled DiLoCo veröffentlicht, ein verteiltes Trainingssystem, das Pathways (Chip-zu-Chip-Datenaustausch im eigenen Tempo jedes Chips) und DiLoCo (Minimierung der Bandbreite zwischen Rechenzentren) kombiniert, um die Notwendigkeit einer globalen Chip-Synchronisation zu eliminieren. Das System trainierte erfolgreich ein 12B Gemma-Modell über vier US-Regionen hinweg unter Verwendung von Niedrigbandbreitennetzwerken. Darüber hinaus wurde gemischtes Hardware-Training mit TPU6e- und TPUv5p-Generationen gleichzeitig ohne Leistungseinbußen demonstriert. Die selbstheilenden Fähigkeiten wurden durch das Einbringen künstlicher Hardwareausfälle verifiziert — das System isolierte Störungen, setzte das Training fort und reintegrierte die wiederhergestellte Hardware nach deren Rückkehr in den Verbund.
Warum das relevant ist
Die Eliminierung globaler Synchronisationszwänge im verteilten Training hat tiefgreifende Implikationen für Trainingskosten, geografische Flexibilität und Resilienz. Selbstheilung beseitigt eines der größten operationellen Risiken bei großangelegten Trainingsläufen. Für Organisationen, die Infrastruktur für das Training von Frontiermodellen planen, könnte der Ansatz von Decoupled DiLoCo geografisch verteilte, heterogene Hardware-Cluster zu einem praktikablen Trainingssubstrat machen — und die Abhängigkeit von koolozierten Hochbandbreiten-GPU-Clustern verringern.