RL 是一種強大的機制,用於在公司特定的工作和數據上訓練模型。這正是我們在 Applied Compute 所做的。一個主要挑戰是如何使 RL 高效,因為我們需要運行快速(在幾天內交付)、便宜(可擴展的單位經濟)和可預測(不僅僅是快速,而是可靠的快速)。以下是一些要點: • 同步 RL 在時間和計算上是浪費的。 • 異步 RL 更高效,但會引入過時性,這會導致學習不穩定。 • 建模和模擬可以幫助分析性地解決導致最佳效率的配置。這使我們能夠快速原型訓練配置,而不必在試運行上消耗昂貴的計算周期。 我們的兩位共同創始人 @rhythmrg 和 @lindensli 最近在 @aiDotEngineer 討論了這些研究,重點關注以下子問題:在給定最大過時性和計算預算的情況下,進行 RL 的最高吞吐量方法是什麼?