Det skjer mange spennende utviklinger innen desentralisert AI-trening i år. Her er mitt syn på hvorfor desentralisert opplæring går fra å være «umulig» til «investerbar». 🧵👇
I begynnelsen ble desentralisert trening ansett som umulig gitt det nyeste innen AI-treningsprotokoller. Selskaper fikk resultater fra avansert maskinvare i avanserte datasentre – opplæring på forbrukermaskinvare på tregt forbrukerinternett virket sprøtt, og argumentet var teknisk velbegrunnet.
Imidlertid ble desentralisert opplæring raskt demonstrert ved eksempel. "Lav kommunikasjon"-algoritmer som DiLoCo (utviklet ved @GoogleDeepMind) ble brukt av selskaper som @PrimeIntellect, @NousResearch og @tplr_ai for å demonstrere modeller trent på en distribuert måte. Disse data-parallelle algoritmene holder hele modellen i nodens minne og bryter opp dataene. I oktober i fjor demonstrerte @Pluralis den første *modellparallelle* kjøringen, som kan bryte opp en transformator i dens faktiske lag for trening.
Mange i den tradisjonelle AI-verdenen, fra @jackclarkSF (medgründer av @AnthropicAI) til @beffjezos til AI-forskningsorganisasjoner som @EpochAIResearch, følger med på desentralisert opplæring. Epoch har beregnet at desentralisert treningsdatabehandling har vokst 20 ganger år for år. Selv om den fortsatt er 1000 ganger mindre enn sentraliserte frontier-kjøringer, lukker den gapet i fire ganger så høy hastighet.
196