DApp Store | Centrum Web3 pro události a hry

Populární témata

Většina lidí si myslí, že decentralizované výpočty selhávají, protože "není dost GPU." Zírají na zásoby. Skutečnou překážkou je koordinace a ten, kdo ji vyřeší, nastavuje pravidla pro AI infrastrukturu. 🧵

/2 Stále se učíme špatné lekce z dobrovolnické výpočetní techniky jako Folding@Home. Tyto práce tolerují pomalé uzly a výpadky. Moderní trénink AI a odvozování trestají nekonzistenci, jedna nespolehlivá GPU může zdržet celý běh.

/3 Jedna otázka nám neustále vyvstává: Mohou globálně rozptýlené, nesourodé GPU fungovat jako jeden předvídatelný stroj? Pokud je odpověď ne, spolehlivost a zkušenosti vývojářů nikdy nehrají roli, protože nic se neprodává.

/4 Internet způsobuje, že se GPU chovají jako nástroje s různým laděním. Zásobníky datových center předpokládají dokonalé načasování. Globální mesh vám dává jitter, nerovnoměrnou šířku pásma, náhodné výpadky a variabilitu hardwaru. Koordinace musí ten nepořádek absorbovat.

/5 @YottaLabs se vydává cestou OS, ne cestou tržiště. Plánování, komunikace, odtěžování paměti, zpracování chyb, ověřování. Jde o jednoduchost: proměňte nespolehlivé stroje v cluster, který se chová dostatečně předvídatelně pro SLA.

/6 Nejkonkrétnější poznatek je rozdělení inference na dvě práce. Prefill potřebuje nejlepší GPU. Decode může běžet i na slabších GPU. Tento design zabraňuje drahým kartám čekat na levné karty a dělá "smíšené flotily" užitečnými místo bolestivými.

/7 Pak skryté úzké hrdlo, které přesouvá pracovní paměť modelu (KV cache). Pokud to odesíláte jedním velkým převodem, zdržujete. Yotta streamuje malé části během výpočtu a komprimuje cache, takže latence WAN přestává dominovat.

102

Top

Hodnocení

Oblíbené