RL 是一种强大的机制,用于在公司特定的工作和数据上训练特定模型。这就是我们在 Applied Compute 所做的。一项关键挑战是如何使 RL 高效,因为我们需要运行速度快(在几天内交付)、成本低(可扩展的单位经济)和可预测(不仅要快,而且要可靠地快)。以下是一些要点: • 同步 RL 在时间和计算上是浪费的。 • 异步 RL 更高效,但会引入过时性,导致学习不稳定。 • 建模和模拟可以帮助分析性地解决导致最佳效率的配置。这使我们能够快速原型训练配置,而不必在试运行中消耗昂贵的计算周期。 我们的两位联合创始人 @rhythmrg 和 @lindensli 最近在 @aiDotEngineer 讨论了这些研究,重点关注以下子问题:在最大过时性和计算预算下,进行 RL 的最高吞吐量方式是什么?