La maggior parte delle persone pensa che il calcolo decentralizzato fallisca perché "non ci sono abbastanza GPU." Stanno guardando l'offerta. Il vero ostacolo è il coordinamento, e chiunque lo risolva avrà il potere di stabilire le regole per l'infrastruttura AI. 🧵
/2 Continuiamo a imparare la lezione sbagliata dal calcolo volontario come Folding@Home. Quei lavori tollerano nodi lenti e interruzioni. L'addestramento e l'inferenza dell'AI moderna puniscono l'incoerenza, una GPU difettosa può bloccare l'intero processo.
/3 Una domanda continua a ripetersi per noi: Possono GPU sparse e disallineate a livello globale comportarsi come un'unica macchina prevedibile? Se la risposta è no, l'affidabilità e l'esperienza dello sviluppatore non contano mai, perché nulla viene spedito.
/4 Internet fa sì che le GPU si comportino come strumenti con diverse accordature. I stack dei data center assumono un temporizzazione perfetta. Una rete globale ti offre jitter, larghezza di banda irregolare, inattività casuale e variazioni hardware. Il coordinamento deve assorbire quel disastro.
/5 @YottaLabs segue la strada del sistema operativo, non quella del marketplace. Pianificazione, comunicazione, scarico della memoria, gestione degli errori, verifica. Il punto è semplice: trasformare macchine inaffidabili in un cluster che si comporta in modo sufficientemente prevedibile per gli SLA.
/6 L'intuizione più concreta, suddividere l'inferenza in due lavori. Il prefill ha bisogno delle migliori GPU. Il decode può funzionare su GPU più deboli. Questo design impedisce alle schede costose di aspettare quelle economiche e rende le “flotte miste” utili invece che dolorose.
/7 Poi il collo di bottiglia nascosto, spostare la memoria di lavoro del modello (cache KV). Se lo invii in un'unica grande trasmissione, ti fermi. Yotta trasmette piccoli pezzi mentre l'elaborazione è in corso e comprime la cache, così la latenza WAN smette di dominare.
98