Většina lidí si myslí, že decentralizované výpočty selhávají, protože "není dost GPU." Zírají na zásoby. Skutečnou překážkou je koordinace a ten, kdo ji vyřeší, nastavuje pravidla pro AI infrastrukturu. 🧵
/2 Stále se učíme špatné lekce z dobrovolnické výpočetní techniky jako Folding@Home. Tyto práce tolerují pomalé uzly a výpadky. Moderní trénink AI a odvozování trestají nekonzistenci, jedna nespolehlivá GPU může zdržet celý běh.
/3 Jedna otázka nám neustále vyvstává: Mohou globálně rozptýlené, nesourodé GPU fungovat jako jeden předvídatelný stroj? Pokud je odpověď ne, spolehlivost a zkušenosti vývojářů nikdy nehrají roli, protože nic se neprodává.
/4 Internet způsobuje, že se GPU chovají jako nástroje s různým laděním. Zásobníky datových center předpokládají dokonalé načasování. Globální mesh vám dává jitter, nerovnoměrnou šířku pásma, náhodné výpadky a variabilitu hardwaru. Koordinace musí ten nepořádek absorbovat.
/5 @YottaLabs se vydává cestou OS, ne cestou tržiště. Plánování, komunikace, odtěžování paměti, zpracování chyb, ověřování. Jde o jednoduchost: proměňte nespolehlivé stroje v cluster, který se chová dostatečně předvídatelně pro SLA.
/6 Nejkonkrétnější poznatek je rozdělení inference na dvě práce. Prefill potřebuje nejlepší GPU. Decode může běžet i na slabších GPU. Tento design zabraňuje drahým kartám čekat na levné karty a dělá "smíšené flotily" užitečnými místo bolestivými.
/7 Pak skryté úzké hrdlo, které přesouvá pracovní paměť modelu (KV cache). Pokud to odesíláte jedním velkým převodem, zdržujete. Yotta streamuje malé části během výpočtu a komprimuje cache, takže latence WAN přestává dominovat.
102