Nouveau post sur le scaling RL : Une analyse minutieuse des benchmarks publics d'OpenAI révèle que le RL évolue beaucoup moins bien que l'inférence : pour égaler chaque augmentation de 10x de l'inférence, vous avez besoin de 100x de la puissance de calcul pour l'entraînement RL. La seule raison pour laquelle cela a été rentable est de partir d'une base très faible. 🧵