2020 makalemizde, RL algoritmasında dağıtım verimliliğini tanımladık. Sonuç olarak, perf örneklerden çok dağıtım sıklığıyla sınırlıdır. Çevrimiçi öğrenme anahtardır ve LLM'ler için "post-training"in tam da böyle popülerleştiğidir. Pazar 💯 günü #schmidhubering