Calculul de inferență este pe cale să devină o încărcătură de muncă computațională masivă până la sfârșitul acestui deceniu. Cred că va fi mult mai mare decât trainingul (mai ales dacă iei în considerare implementările RL / nevoile de inference pentru training). Și rămâne un teren de joc deschis în ceea ce privește hardware-ul, platformele și modelele. Este, de asemenea, din ce în ce mai clar că oamenii sunt dispuși să plătească un plus pentru o latență redusă. Pe partea hardware, există câteva direcții interesante de urmărit: - Configurațiile de tip SRAM par promițătoare (GPT Spark pe Cerebras, achiziție Groq de către Nvidia) - Sistemele dezagregate (pre-umplerea pe o mașină / procesor, generarea pe alta) probabil au mult sens. Caracteristicile computaționale ale prefill versus decoding sunt atât de diferite, încât specializarea la nivel hardware va aduce câștiguri de eficiență - De asemenea, nu aș respinge tehnologii mai exotice precum cipul Taalas / calculul aproape de memorie / etc. Deși sunt încă destul de departe de implementarea la scară largă, presiunea economică pentru creșterea eficienței ar putea fi un catalizator Pe partea de algoritm / arhitectură: - Aproape fiecare model major de greutăți deschise are cel puțin o optimizare, ceea ce îl face mai rapid pentru inferență. Fie că este vorba de MoE, SSM (sau altă varietate hibridă), fereastră glisantă sau atenție redusă. Sunt mai multe diferențe aici decât erau acum un an. Și va fi interesant de văzut unde ne vom întâlni. - Modelele de difuzie vor unifica împărțirea preumplere/decodare? - Încă cred că există câștiguri mari de obținut în co-proiectarea modelului, hardware-ului și sarcinii de lucru De asemenea, nu cred că vom avea o soluție universală în viitor: - Modelele bazate pe cloud pot arăta foarte diferit față de modelele optimizate la margine - Modelele pot fi din ce în ce mai co-proiectate pentru hardware-ul pe care sunt implementate - Va exista cel puțin un buton care face un compromis între latență și eficiență/cost energetic.