RL is een krachtig mechanisme voor het trainen van bedrijfsspecifieke modellen op hun unieke werk en data. Dit is wat we doen bij Applied Compute. Een belangrijke uitdaging is hoe we RL efficiënt kunnen maken, omdat we snelle runs nodig hebben (geleverd binnen enkele dagen), goedkoop (schaalbare eenheidskosten) en voorspelbaar (niet alleen snel, maar betrouwbaar snel). Hier zijn enkele belangrijke punten: • Synchrone RL is tijd- en rekenkrachtverspillend. • Asynchrone RL is efficiënter, maar introduceert veroudering, wat leidt tot leerinstabiliteit. • Modellering en simulaties kunnen helpen om analytisch op te lossen welke configuratie leidt tot optimale efficiëntie. Dit stelt ons in staat om snel trainingsconfiguraties te prototypen, zonder dure rekencycli te verbranden op proefruns. Twee van onze medeoprichters, @rhythmrg en @lindensli, bespraken een deel van dit onderzoek onlangs bij @aiDotEngineer, met een focus op het volgende subprobleem: wat is de hoogste doorvoersnelheid om RL uit te voeren gegeven een maximale veroudering en rekenbudget?