Majoritatea oamenilor cred că calculul descentralizat eșuează pentru că "nu sunt suficiente plăci video". Se uită la aprovizionare. Adevăratul obstacol este coordonarea, iar cine îl rezolvă setează regulile infrastructurii AI. 🧵
/2 Învățăm mereu lecția greșită din calculul voluntar ca Folding@Home. Aceste joburi tolerează noduri lente și abandonuri. Antrenamentul AI modern și inferența pedepsesc inconsistența, un singur GPU instabil poate bloca toată runda.
/3 O întrebare ne apare mereu: Pot GPU-urile împrăștiate global și nepotrivite să se comporte ca o singură mașină previzibilă? Dacă răspunsul este nu, fiabilitatea și experiența dezvoltatorului nu contează niciodată, pentru că nimic nu se livrează.
/4 Internetul face ca plăcile video să se comporte ca niște instrumente cu acordaje diferite. Stivele de centre de date presupun sincronizarea perfectă. Un mesh global îți oferă jitter, lățime de bandă inegală, perioade de nefuncționare aleatorii și variație hardware. Coordonarea trebuie să absoarbă această mizerie.
/5 @YottaLabs urmează calea sistemului de operare, nu cea de piață. Programare, comunicații, descărcarea memoriei, gestionarea defecțiunilor, verificare. Ideea este simplă: transformă mașinile nesigure într-un cluster care se comportă suficient de previzibil pentru SLA-uri.
/6 Cea mai concretă perspectivă, împarte inferența în două joburi. Prefill are nevoie de cele mai bune plăci video. Decodarea poate rula pe plăci video mai slabe. Acest design împiedică cărțile scumpe să aștepte pe cele ieftine și face ca "flotele mixte" să fie utile, nu dureroase.
/7 Apoi blocajul ascuns, mutând memoria de lucru a modelului (KV cache). Dacă îl trimiți într-un singur transfer mare, te blochezi. Yotta transmite bucăți mici în timp ce calculul rulează și comprimă cache-ul, astfel încât latența WAN să nu mai domine.
99