I vår artikkel fra 2020 definerte vi distribusjonseffektivitet i RL-algoritmen. Konklusjonen er at perf er mer begrenset av frekvensen av utplasseringer enn av prøver. Nettbasert læring er nøkkelen, og det er akkurat slik «post-training» ble popularisert for LLM-er. Søndag er 💯 #schmidhubering