Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Většina lidí si myslí, že decentralizované výpočty selhávají, protože "není dost GPU."
Zírají na zásoby.
Skutečnou překážkou je koordinace a ten, kdo ji vyřeší, nastavuje pravidla pro AI infrastrukturu. 🧵

/2 Stále se učíme špatné lekce z dobrovolnické výpočetní techniky jako Folding@Home.
Tyto práce tolerují pomalé uzly a výpadky.
Moderní trénink AI a odvozování trestají nekonzistenci, jedna nespolehlivá GPU může zdržet celý běh.
/3 Jedna otázka nám neustále vyvstává:
Mohou globálně rozptýlené, nesourodé GPU fungovat jako jeden předvídatelný stroj?
Pokud je odpověď ne, spolehlivost a zkušenosti vývojářů nikdy nehrají roli, protože nic se neprodává.
/4 Internet způsobuje, že se GPU chovají jako nástroje s různým laděním.
Zásobníky datových center předpokládají dokonalé načasování.
Globální mesh vám dává jitter, nerovnoměrnou šířku pásma, náhodné výpadky a variabilitu hardwaru. Koordinace musí ten nepořádek absorbovat.
/5 @YottaLabs se vydává cestou OS, ne cestou tržiště.
Plánování, komunikace, odtěžování paměti, zpracování chyb, ověřování.
Jde o jednoduchost: proměňte nespolehlivé stroje v cluster, který se chová dostatečně předvídatelně pro SLA.
/6 Nejkonkrétnější poznatek je rozdělení inference na dvě práce.
Prefill potřebuje nejlepší GPU.
Decode může běžet i na slabších GPU.
Tento design zabraňuje drahým kartám čekat na levné karty a dělá "smíšené flotily" užitečnými místo bolestivými.
/7 Pak skryté úzké hrdlo, které přesouvá pracovní paměť modelu (KV cache).
Pokud to odesíláte jedním velkým převodem, zdržujete.
Yotta streamuje malé části během výpočtu a komprimuje cache, takže latence WAN přestává dominovat.
102
Top
Hodnocení
Oblíbené
