RL on tehokas mekanismi kouluttaa yrityskohtaisia malleja niiden ainutlaatuisessa työssä ja datassa. Tätä me teemme Applied Computella. Keskeinen haaste on, miten tehdä RL:stä tehokasta, koska meidän täytyy olla nopeita (toimitettu päivissä), halpoja (skaalautuva yksikkötalous) ja ennustettavia (ei vain nopeita, vaan luotettavan nopeita). Tässä muutamia oppeja: • Synkroninen RL on ajan ja laskennan hukkaa. • Asynkroninen RL on tehokkaampi, mutta aiheuttaa vanhentuneisuutta, mikä aiheuttaa oppimisvaikeuksia. • Mallinnus ja simulaatiot auttavat analyyttisesti selvittämään, mikä konfiguraatio johtaa optimaaliseen tehokkuuteen. Tämä mahdollistaa koulutuskonfiguraatioiden nopean prototyypin ilman, että kuluttaa kalliita laskentasyklejä koeajoissa. Kaksi perustajaamme, @rhythmrg ja @lindensli, keskustelivat tästä tutkimuksesta @aiDotEngineer:ssa äskettäin, keskittyen seuraavaan alaongelmaan: mikä on suurin läpimenotapa tehdä RL, kun otetaan huomioon maksimaalinen vanhentuneisuus ja laskentabudjetti?