RL to potężny mechanizm do szkolenia modeli specyficznych dla firmy na ich unikalnej pracy i danych. To właśnie robimy w Applied Compute. Kluczowym wyzwaniem jest to, jak uczynić RL efektywnym, ponieważ potrzebujemy, aby uruchomienia były szybkie (dostarczane w ciągu dni), tanie (skalowalne jednostkowe koszty) i przewidywalne (nie tylko szybkie, ale niezawodnie szybkie). Oto kilka wniosków: • Synchronous RL marnuje czas i moc obliczeniową. • Asynchronous RL jest bardziej efektywne, ale wprowadza przestarzałość, co powoduje niestabilności w uczeniu się. • Modelowanie i symulacje mogą pomóc analitycznie rozwiązać, która konfiguracja prowadzi do optymalnej efektywności. Pozwala to na szybkie prototypowanie konfiguracji szkoleniowych, bez marnowania drogich cykli obliczeniowych na próby. Dwóch naszych współzałożycieli, @rhythmrg i @lindensli, omówiło część tych badań na @aiDotEngineer niedawno, koncentrując się na następującym podproblemie: jaki jest najwyższy przepustowość sposobu na realizację RL przy maksymalnej przestarzałości i budżecie obliczeniowym?