Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RL este un mecanism puternic pentru antrenarea modelelor specifice companiei pe baza muncii și datelor lor unice. Asta facem noi la Applied Compute. O provocare cheie este cum să facem RL eficient, pentru că avem nevoie ca run-urile să fie rapide (livrate în câteva zile), ieftine (economie scalabilă a unităților) și previzibile (nu doar rapide, ci în mod fiabil și rapide). Iată câteva concluzii:
• RL-ul sincron este o risipă de timp și calcul.
• RL-ul asincron este mai eficient, dar introduce stagnare, ceea ce cauzează instabilități în învățare.
• Modelarea și simulările pot ajuta la determinarea analitică a configurației care conduc la eficiență optimă. Acest lucru ne permite prototiparea rapidă a configurațiilor de antrenament, fără a consuma cicluri de calcul costisitoare la rulările de testare.
Doi dintre cofondatorii noștri, @rhythmrg și @lindensli, au discutat recent la @aiDotEngineer această cercetare, concentrându-se pe următoarea subproblemă: care este cea mai mare metodă de a face RL cu un buget maxim de stagnare și de calcul?
Limită superioară
Clasament
Favorite

