Er gebeuren dit jaar veel spannende ontwikkelingen op het gebied van gedecentraliseerde AI-training. Hier is mijn visie op waarom gedecentraliseerde training van "onmogelijk" naar "investeerbaar" beweegt. 🧵👇
In het begin werd gedecentraliseerde training als onmogelijk beschouwd, gezien de stand van zaken van AI-trainingsprotocollen. Bedrijven haalden resultaten uit high-end hardware in high-end datacenters - trainen op consumentenhardware met trage consumenten-internet leek gek, en het argument was technisch goed onderbouwd.
Echter, zeer snel werd gedecentraliseerde training aangetoond aan de hand van voorbeelden. "Laag communicatie" algoritmen zoals DiLoCo (ontwikkeld bij @GoogleDeepMind) werden gebruikt door bedrijven zoals @PrimeIntellect, @NousResearch en @tplr_ai om modellen te demonstreren die op een gedistribueerde manier zijn getraind. Deze data-parallel algoritmen houden het hele model in het geheugen van de node en splitsen de data op. In oktober van vorig jaar demonstreerde @Pluralis de eerste *model-parallel* run, die een transformer kan opsplitsen in zijn daadwerkelijke lagen voor training.
Veel mensen in de traditionele AI-wereld, van @jackclarkSF (mede-oprichter van @AnthropicAI) tot @beffjezos en AI-onderzoeksnon-profitorganisaties zoals @EpochAIResearch, besteden aandacht aan gedecentraliseerde training. Epoch heeft berekend dat de gedecentraliseerde trainingscapaciteit jaar op jaar met 20x is gegroeid. Hoewel het nog steeds 1000x kleiner is dan gecentraliseerde frontier-runs, sluit het die kloof met 4x de snelheid.
181