Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Inferenční výpočetní výkon je na cestě stát se obrovskou výpočetní zátěží do konce tohoto desetiletí. Myslím, že to bude mnohem větší než jen školení (zejména pokud vezmete v úvahu zavádění RL / potřeby inference pro školení).
A stále je to otevřené hřiště, co se týče hardwaru, platforem a modelů.
Je také stále jasnější, že lidé jsou ochotni zaplatit za snížení latence přirážku.
Na hardwarové straně je několik zajímavých směrů, na které je třeba dávat pozor:
- Nastavení ve stylu SRAM vypadá slibně (GPT Spark na Cerebras, akvizice Groq od Nvidie)
- Rozčleněné systémy (předvyplnění na jednom stroji / procesoru, generování na jiném) pravděpodobně dávají velký smysl. Výpočetní vlastnosti předplnění a dekódování jsou natolik odlišné, že specializace na hardwarovou úroveň přinese zvýšení efektivity
- Také bych nezanedbával exotické technologie jako Taalas čip / počítání blízké paměti / atd. I když jsou stále poměrně daleko od rozsáhlého nasazení, ekonomický tlak na zvýšení efektivity by mohl být katalyzátorem
Na straně algoritmu / architektury:
- Prakticky každý hlavní model s otevřenými vahami má alespoň jednu optimalizaci, která zrychluje inferenci. Ať už jde o MoE, SSM (nebo jiný hybridní druh), posuvné okno nebo omezenou pozornost. Je tu víc rozdílů než před rokem. A bude zajímavé sledovat, kde se setkáme.
- Sjednotí difuzní modely rozdělení předplňování / dekódování?
- Stále věřím, že další spolunavrhování modelu na hardware a pracovní zátěž lze výrazně přinést
Také si nemyslím, že v budoucnu budeme mít univerzální řešení:
- Cloudové modely mohou vypadat velmi odlišně od modelů optimalizovaných na okrajích
- Modely mohou být stále více spolunavrhovány pro hardware, na kterém jsou nasazeny
- Bude tam alespoň jeden knoflík, který vyvažuje latenci a energetickou účinnost / náklady.
Top
Hodnocení
Oblíbené
