De meeste mensen denken dat gedecentraliseerde computing faalt omdat "er niet genoeg GPU's zijn." Ze kijken naar de voorraad. De echte blokkade is coördinatie, en wie dat oplost, mag de regels voor AI-infrastructuur bepalen. 🧵
/2 We blijven de verkeerde les leren van vrijwillige rekencapaciteit zoals Folding@Home. Die taken tolereren trage nodes en uitval. Moderne AI-training en inferentie straffen inconsistentie, één onbetrouwbare GPU kan de hele run stilleggen.
/3 Eén vraag blijft bij ons terugkomen: Kunnen wereldwijd verspreide, niet overeenkomende GPU's zich gedragen als één voorspelbare machine? Als het antwoord nee is, doet betrouwbaarheid en de ervaring van de ontwikkelaar er nooit toe, omdat er niets wordt verzonden.
/4 Het internet laat GPU's zich gedragen als instrumenten met verschillende afstemming. Datacenterstacks gaan uit van perfecte timing. Een wereldwijd netwerk geeft je jitter, ongelijke bandbreedte, willekeurige uitvaltijd en hardwarevariatie. Coördinatie moet die rommel opvangen.
/5 @YottaLabs kiest voor de OS-route, niet de marktplaatsroute. Planning, communicatie, geheugenafvoer, foutafhandeling, verificatie. Het punt is eenvoudig, maak onbetrouwbare machines tot een cluster dat voorspelbaar genoeg functioneert voor SLA's.
/6 Het meest concrete inzicht is dat je inferentie in twee taken moet splitsen. Prefill heeft de beste GPU's nodig. Decode kan draaien op zwakkere GPU's. Dit ontwerp voorkomt dat dure kaarten moeten wachten op goedkope, en het maakt 'gemengde vloten' nuttig in plaats van pijnlijk.
/7 Dan de verborgen bottleneck, het verplaatsen van het werkgeheugen van het model (KV-cache). Als je het in één grote overdracht verzendt, kom je stil te staan. Yotta streamt kleine stukjes terwijl de berekeningen draaien en comprimeert de cache, zodat WAN-latentie niet de overhand krijgt.
107