O RL é um mecanismo poderoso para treinar modelos específicos de empresas com base no seu trabalho e dados únicos. É isso que fazemos na Applied Compute. Um dos principais desafios é como tornar o RL eficiente, porque precisamos que as execuções sejam rápidas (entregues em dias), baratas (economia de escala) e previsíveis (não apenas rápidas, mas consistentemente rápidas). Aqui estão algumas conclusões: • O RL síncrono é um desperdício de tempo e recursos computacionais. • O RL assíncrono é mais eficiente, mas introduz desatualização, o que causa instabilidades no aprendizado. • Modelagem e simulações podem ajudar a resolver analiticamente qual configuração leva à eficiência ideal. Isso nos permite prototipar rapidamente configurações de treinamento, sem desperdiçar ciclos computacionais caros em execuções de teste. Dois dos nossos cofundadores, @rhythmrg e @lindensli, discutiram parte desta pesquisa na @aiDotEngineer recentemente, com foco no seguinte subproblema: qual é a maneira de maior rendimento para fazer RL dado um máximo de desatualização e orçamento computacional?