Letos se v decentralizovaném školení AI děje spousta opravdu vzrušujících vývojů. Tady je můj pohled na to, proč se decentralizované školení posouvá z "nemožného" na "investovatelné". 🧵👇
Zpočátku byl decentralizovaný trénink považován za nemožný vzhledem k současnému stavu AI tréninkových protokolů. Firmy dosahovaly výsledků z vysoce výkonného hardwaru v datových centrech – školení spotřebitelského hardwaru na pomalém internetu se zdálo šílené a argument byl technicky dobře odůvodněný.
Nicméně velmi rychle bylo decentralizované školení demonstrováno na příkladu. "Algoritmy nízké komunikace" jako DiLoCo (vyvinutý v @GoogleDeepMind) používaly firmy jako @PrimeIntellect, @NousResearch a @tplr_ai k demonstraci modelů trénovaných distribuovaným způsobem. Tyto algoritmy s paralelními daty uchovávají celý model v paměti uzlu a rozkládají data. V říjnu loňského roku @Pluralis předvedl první *model-paralelní* běh, který dokáže transformátor rozdělit na skutečné vrstvy pro trénink.
Mnoho lidí v tradičním světě AI, od @jackclarkSF (spoluzakladatel @AnthropicAI) přes @beffjezos až po neziskové organizace zaměřené na výzkum AI, jako je @EpochAIResearch, věnuje pozornost decentralizovanému školení. Epoch vypočítal, že decentralizovaná výpočetní kapacita tréninku roste 20krát ročně. I když je stále 1000x menší než centralizované frontier runy, tento rozdíl se snižuje čtyřnásobnou rychlostí.
111