Det sker många riktigt spännande utvecklingar inom decentraliserad AI-träning i år. Här är min syn på varför decentraliserad utbildning går från "omöjligt" till "investerande". 🧵👇
I början ansågs decentraliserad träning omöjlig med tanke på AI-träningsprotokollens senaste nivå. Företag fick resultat från högpresterande hårdvara i högpresterande datacenter – utbildning på konsumenthårdvara på långsamt konsumentinternet verkade galet, och argumentet var tekniskt välgrundat.
Men mycket snabbt demonstrerades decentraliserad utbildning genom exempel. "Low communication"-algoritmer som DiLoCo (utvecklade vid @GoogleDeepMind) användes av företag som @PrimeIntellect, @NousResearch och @tplr_ai för att demonstrera modeller tränade på ett distribuerat sätt. Dessa dataparallella algoritmer lagrar hela modellen i nodens minne och delar upp datan. I oktober förra året demonstrerade @Pluralis den första *modellparallella* körningen, som kan dela upp en transformator i dess faktiska lager för träning.
Många i den traditionella AI-världen, från @jackclarkSF (medgrundare av @AnthropicAI) till @beffjezos till AI-forskningsorganisationer som @EpochAIResearch, uppmärksammar decentraliserad utbildning. Epoch har beräknat att decentraliserad träningsberäkning har vuxit 20 gånger år för år. Även om det fortfarande är tusen gånger mindre än centraliserade frontier-körningar, minskar det gapet i fyra gånger samma takt.
116