RL este un mecanism puternic pentru antrenarea modelelor specifice companiei pe baza muncii și datelor lor unice. Asta facem noi la Applied Compute. O provocare cheie este cum să facem RL eficient, pentru că avem nevoie ca run-urile să fie rapide (livrate în câteva zile), ieftine (economie scalabilă a unităților) și previzibile (nu doar rapide, ci în mod fiabil și rapide). Iată câteva concluzii: • RL-ul sincron este o risipă de timp și calcul. • RL-ul asincron este mai eficient, dar introduce stagnare, ceea ce cauzează instabilități în învățare. • Modelarea și simulările pot ajuta la determinarea analitică a configurației care conduc la eficiență optimă. Acest lucru ne permite prototiparea rapidă a configurațiilor de antrenament, fără a consuma cicluri de calcul costisitoare la rulările de testare. Doi dintre cofondatorii noștri, @rhythmrg și @lindensli, au discutat recent la @aiDotEngineer această cercetare, concentrându-se pe următoarea subproblemă: care este cea mai mare metodă de a face RL cu un buget maxim de stagnare și de calcul?