De fleste tror desentralisert databehandling feiler fordi «det ikke er nok GPU-er». De stirrer på forsyningen. Den virkelige hindringen er koordinering, og den som løser det får sette reglene for AI-infrastruktur. 🧵
/2 Vi lærer stadig feil leksa fra frivillig databehandling som Folding@Home. Disse jobbene tolererer trege noder og frafall. Moderne AI-trening og slutninger straffer inkonsistens, én ustabil GPU kan bremse hele kjøringen.
/3 Ett spørsmål dukker stadig opp til oss: Kan globalt spredte, mismatchede GPU-er oppføre seg som én forutsigbar maskin? Hvis svaret er nei, spiller aldri pålitelighet og utvikleropplevelse noen rolle, fordi ingenting blir sendt ut.
/4 Internett får GPU-er til å oppføre seg som instrumenter med ulik stemming. Datasenterstabler forutsetter perfekt timing. Et globalt mesh gir deg jitter, ujevn båndbredde, tilfeldig nedetid og maskinvarevariasjon. Koordinasjon må absorbere det rotet.
/5 @YottaLabs velger OS-ruten, ikke markedsplassen. Planlegging, kommunikasjon, minneavlasting, feilhåndtering, verifisering. Poenget er enkelt: gjør upålitelige maskiner om til en klynge som oppfører seg forutsigbart nok for SLA-er.
/6 Den mest konkrete innsikten er å dele slutningen i to oppgaver. Prefill krever de beste GPU-ene. Decode kan kjøres på svakere GPU-er. Det designet hindrer dyre kort i å vente på billige kort, og gjør «blandede flåter» nyttige i stedet for smertefulle.
/7 Deretter den skjulte flaskehalsen, som flytter modellens arbeidsminne (KV-cache). Hvis du sender det i én stor overføring, stopper du. Yotta strømmer små biter mens beregningen kjører, og komprimerer cachen, så WAN-latensen slutter å dominere.
119