DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Shane Gu

Gemini Thinking, Senior Staff RS @GoogleDeepMind. 🇯🇵 -născut 🇨🇳🇨🇦 . ex: Gemini Multilinguality Post-Train Lead, GPT-4 @OpenAI (JP: @shanegJP)

Am organizat primul workshop RL "centrat pe date" la NeurIPS în 2021 (în timpul pieței bear pentru RL profund). Îmi place să-l văd din nou acum în era LLM-urilor și a mediilor RL din lumea reală.

În epoca pretraining-ului, ceea ce conta era textul de pe internet. Ați dori în primul rând o colecție mare, diversă și de înaltă calitate de documente de pe internet din care să învățați. În epoca reglajelor fine supravegheate, erau conversațiile. Lucrătorii contractuali sunt angajați pentru a crea răspunsuri la întrebări, un pic ca ceea ce ați vedea pe Stack Overflow / Quora sau etc., dar orientat către cazurile de utilizare LLM. Niciunul dintre cele două de mai sus nu va dispărea (imo), dar în această eră a învățării prin întărire, acum sunt medii. Spre deosebire de cele de mai sus, ele oferă LLM oportunitatea de a interacționa efectiv - de a lua măsuri, de a vedea rezultatele etc. Aceasta înseamnă că puteți spera să faceți mult mai bine decât imitația experților statistici. Și pot fi folosite atât pentru antrenamentul modelelor, cât și pentru evaluare. Dar, la fel ca înainte, problema de bază acum este nevoie de un set mare, divers și de înaltă calitate de medii, ca exerciții împotriva cărora LLM să exerseze. Într-un fel, îmi amintesc de primul proiect OpenAI (gym), care a fost exact un framework care spera să construiască o colecție mare de medii în aceeași schemă, dar asta a fost cu mult înainte de LLM-uri. Deci mediile erau simple sarcini de control academic ale vremii, cum ar fi cărucior, ATARI etc. Hub-ul de medii @PrimeIntellect (și depozitul "verificatori" de pe GitHub) construiește versiunea modernizată care vizează în mod specific LLM-urile și este un efort/idee grozav. Am propus ca cineva să construiască ceva asemănător la începutul acestui an: Mediile au proprietatea că, odată ce scheletul cadrului este la locul său, în principiu, comunitatea / industria poate paraleliza în multe domenii diferite, ceea ce este interesant. Gând final - personal și pe termen lung, sunt optimist în ceea ce privește mediile și interacțiunile agentice, dar sunt pesimist în ceea ce privește învățarea prin întărire în mod specific. Cred că funcțiile de recompensă sunt super sus, și cred că oamenii nu folosesc RL pentru a învăța (poate o fac pentru unele sarcini motorii etc., dar nu pentru sarcini de rezolvare a problemelor intelectuale). Oamenii folosesc diferite paradigme de învățare care sunt semnificativ mai puternice și mai eficiente în eșantionare și care nu au fost încă inventate și scalate în mod corespunzător, deși există schițe și idei timpurii (ca doar un exemplu, ideea de "învățare promptă a sistemului", mutarea actualizării la tokenuri/contexte nu la greutăți și, opțional, distilarea la greutăți ca un proces separat, un pic ca somnul).

Limită superioară

Clasament

Favorite