Ci sono molti sviluppi davvero entusiasmanti che stanno avvenendo quest'anno nella formazione decentralizzata dell'AI. Ecco la mia opinione su perché la formazione decentralizzata sta passando da "impossibile" a "investibile". 🧵👇
All'inizio, l'addestramento decentralizzato era considerato impossibile date le attuali tecnologie dei protocolli di addestramento dell'AI. Le aziende ottenevano risultati da hardware di alta gamma in data center di alta gamma -- addestrare su hardware consumer con internet consumer lento sembrava folle, e l'argomento era ben motivato tecnicamente.
Tuttavia, molto rapidamente è stato dimostrato il training decentralizzato per esempio. Algoritmi con "bassa comunicazione" come DiLoCo (sviluppato da @GoogleDeepMind) sono stati utilizzati da aziende come @PrimeIntellect, @NousResearch e @tplr_ai per dimostrare modelli addestrati in modo distribuito. Questi algoritmi di parallelismo dei dati mantengono l'intero modello nella memoria del nodo e suddividono i dati. Nell'ottobre dello scorso anno, @Pluralis ha dimostrato il primo run *model-parallel*, che può suddividere un trasformatore nei suoi strati effettivi per l'addestramento.
Molte persone nel mondo tradizionale dell'AI, da @jackclarkSF (co-fondatore di @AnthropicAI) a @beffjezos, fino a organizzazioni no-profit di ricerca sull'AI come @EpochAIResearch, stanno prestando attenzione all'addestramento decentralizzato. Epoch ha calcolato che la potenza di calcolo per l'addestramento decentralizzato è cresciuta di 20 volte anno dopo anno. Anche se è ancora 1000 volte più piccola rispetto alle esecuzioni centralizzate di frontiera, sta colmando quel divario a un ritmo di 4 volte.
111