O RL é um mecanismo poderoso para treinar modelos específicos da empresa em seu trabalho e dados únicos. É isso que fazemos na Applied Compute. Um desafio chave é como tornar o RL eficiente, porque precisamos que as execuções sejam rápidas (entregues em dias), baratas (economia de unidades escaláveis) e previsíveis (não apenas rápidas, mas confiavelmente rápidas). Aqui estão algumas lições: • O RL síncrono é um desperdício de tempo e computação. • O RL assíncrono é mais eficiente, mas introduz estagnação, o que causa inestabilidades de aprendizagem. • Modelagem e simulações podem ajudar a resolver analiticamente qual configuração leva à eficiência ideal. Isso nos permite prototipar rapidamente configurações de treinamento, sem gastar ciclos de computação caros em testes de teste. Dois de nossos cofundadores, @rhythmrg e @lindensli, discutiram parte dessa pesquisa recentemente no @aiDotEngineer, com foco no seguinte subproblema: qual é a forma de maior rendimento de fazer RL com máximo de estagnação e orçamento de computação?