Desideri costruire leggi di scalabilità per l'RL ma non sei sicuro di come scalare? O quali scale? O l'RL potrebbe scalare in modo prevedibile? Introduciamo: L'Arte di Scalare il Calcolo dell'Apprendimento per Rinforzo per LLMs