Există multe evoluții cu adevărat interesante în antrenamentul AI descentralizat în acest an. Iată perspectiva mea despre motivul pentru care instruirea descentralizată trece de la "imposibil" la "investibilă". 🧵👇
La început, antrenamentul descentralizat era considerat imposibil, având în vedere stadiul avansat al protocoalelor de antrenament AI. Companiile au obținut rezultate din hardware de top în centre de date de top – instruirea pe hardware pentru consumatori pe internet lent pentru consumatori părea nebunească, iar argumentul era bine argumentat tehnic.
Totuși, foarte rapid instruirea descentralizată a fost demonstrată prin exemplu. Algoritmi de "comunicare scăzută" precum DiLoCo (dezvoltat la @GoogleDeepMind) au fost folosiți de companii precum @PrimeIntellect, @NousResearch și @tplr_ai pentru a demonstra modele antrenate într-un mod distribuit. Acești algoritmi paralel de date păstrează întregul model în memoria nodului și fragmentează datele. În octombrie anul trecut, @Pluralis demonstrat prima rundă *paralelă model*, care poate descompune un transformator în straturile sale reale pentru antrenament.
Mulți oameni din lumea AI tradițională, de la @jackclarkSF (co-fondator al @AnthropicAI) până la @beffjezos până la organizații non-profit de cercetare AI precum @EpochAIResearch, acordă atenție instruirii descentralizate. Epoch a calculat că calculul de antrenament descentralizat a crescut de 20 de ori de la an la an. Deși este încă de 1000 de ori mai mic decât run-urile centralizate de frontieră, reduce această diferență cu o rată de 4 ori mai mare.
112