DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

RL este un mecanism puternic pentru antrenarea modelelor specifice companiei pe baza muncii și datelor lor unice. Asta facem noi la Applied Compute. O provocare cheie este cum să facem RL eficient, pentru că avem nevoie ca run-urile să fie rapide (livrate în câteva zile), ieftine (economie scalabilă a unităților) și previzibile (nu doar rapide, ci în mod fiabil și rapide). Iată câteva concluzii: • RL-ul sincron este o risipă de timp și calcul. • RL-ul asincron este mai eficient, dar introduce stagnare, ceea ce cauzează instabilități în învățare. • Modelarea și simulările pot ajuta la determinarea analitică a configurației care conduc la eficiență optimă. Acest lucru ne permite prototiparea rapidă a configurațiilor de antrenament, fără a consuma cicluri de calcul costisitoare la rulările de testare. Doi dintre cofondatorii noștri, @rhythmrg și @lindensli, au discutat recent la @aiDotEngineer această cercetare, concentrându-se pe următoarea subproblemă: care este cea mai mare metodă de a face RL cu un buget maxim de stagnare și de calcul?

Limită superioară

Clasament

Favorite