RL è un meccanismo potente per addestrare modelli specifici per le aziende sui loro dati e lavoro unici. Questo è ciò che facciamo in Applied Compute. Una delle sfide principali è come rendere RL efficiente, perché abbiamo bisogno che le esecuzioni siano veloci (consegna in giorni), economiche (economia di scala) e prevedibili (non solo veloci, ma affidabilmente veloci). Ecco alcuni punti chiave: • RL sincrono è uno spreco di tempo e risorse computazionali. • RL asincrono è più efficiente ma introduce obsolescenza, che causa instabilità nell'apprendimento. • La modellazione e le simulazioni possono aiutare a risolvere analiticamente quale configurazione porta a un'efficienza ottimale. Questo ci consente di prototipare rapidamente configurazioni di addestramento, senza bruciare costosi cicli computazionali in esecuzioni di prova. Due dei nostri co-fondatori, @rhythmrg e @lindensli, hanno discusso parte di questa ricerca recentemente con @aiDotEngineer, concentrandosi sul seguente sottoproblema: qual è il modo con il massimo throughput per fare RL dato un massimo di obsolescenza e un budget computazionale?