Inferenční výpočetní výkon je na cestě stát se obrovskou výpočetní zátěží do konce tohoto desetiletí. Myslím, že to bude mnohem větší než jen školení (zejména pokud vezmete v úvahu zavádění RL / potřeby inference pro školení). A stále je to otevřené hřiště, co se týče hardwaru, platforem a modelů. Je také stále jasnější, že lidé jsou ochotni zaplatit za snížení latence přirážku. Na hardwarové straně je několik zajímavých směrů, na které je třeba dávat pozor: - Nastavení ve stylu SRAM vypadá slibně (GPT Spark na Cerebras, akvizice Groq od Nvidie) - Rozčleněné systémy (předvyplnění na jednom stroji / procesoru, generování na jiném) pravděpodobně dávají velký smysl. Výpočetní vlastnosti předplnění a dekódování jsou natolik odlišné, že specializace na hardwarovou úroveň přinese zvýšení efektivity - Také bych nezanedbával exotické technologie jako Taalas čip / počítání blízké paměti / atd. I když jsou stále poměrně daleko od rozsáhlého nasazení, ekonomický tlak na zvýšení efektivity by mohl být katalyzátorem Na straně algoritmu / architektury: - Prakticky každý hlavní model s otevřenými vahami má alespoň jednu optimalizaci, která zrychluje inferenci. Ať už jde o MoE, SSM (nebo jiný hybridní druh), posuvné okno nebo omezenou pozornost. Je tu víc rozdílů než před rokem. A bude zajímavé sledovat, kde se setkáme. - Sjednotí difuzní modely rozdělení předplňování / dekódování? - Stále věřím, že další spolunavrhování modelu na hardware a pracovní zátěž lze výrazně přinést Také si nemyslím, že v budoucnu budeme mít univerzální řešení: - Cloudové modely mohou vypadat velmi odlišně od modelů optimalizovaných na okrajích - Modely mohou být stále více spolunavrhovány pro hardware, na kterém jsou nasazeny - Bude tam alespoň jeden knoflík, který vyvažuje latenci a energetickou účinnost / náklady.