W tym roku dzieje się wiele ekscytujących wydarzeń w zakresie zdecentralizowanego szkolenia AI. Oto moje zdanie na temat tego, dlaczego zdecentralizowane szkolenie przechodzi od "niemożliwe" do "inwestowalne". 🧵👇
Na początku zdecentralizowane szkolenie uważano za niemożliwe, biorąc pod uwagę stan sztuki protokołów szkoleniowych AI. Firmy uzyskiwały wyniki z zaawansowanego sprzętu w zaawansowanych centrach danych -- szkolenie na sprzęcie konsumenckim przy wolnym internecie konsumenckim wydawało się szalone, a argument był dobrze uzasadniony technicznie.
Jednak bardzo szybko zdecentralizowane szkolenie zostało zademonstrowane na przykładzie. Algorytmy "niskiej komunikacji" takie jak DiLoCo (opracowane w @GoogleDeepMind) były używane przez firmy takie jak @PrimeIntellect, @NousResearch i @tplr_ai do demonstrowania modeli trenowanych w sposób rozproszony. Te algorytmy równoległe danych przechowują cały model w pamięci węzła i dzielą dane. W październiku zeszłego roku @Pluralis zademonstrował pierwsze uruchomienie *równoległe modelu*, które może podzielić transformator na jego rzeczywiste warstwy do szkolenia.
Wielu ludzi w tradycyjnym świecie AI, od @jackclarkSF (współzałożyciel @AnthropicAI) po @beffjezos oraz organizacje non-profit zajmujące się badaniami AI, takie jak @EpochAIResearch, zwraca uwagę na zdecentralizowane szkolenie. Epoch obliczył, że moc obliczeniowa zdecentralizowanego szkolenia wzrosła 20 razy rok do roku. Chociaż nadal jest 1000 razy mniejsza niż centralne uruchomienia na granicy, zmniejsza tę różnicę w tempie 4 razy.
192