Nueva publicación sobre el escalado de RL: Un análisis cuidadoso de los puntos de referencia públicos de OpenAI revela escalas de RL mucho peores que la inferencia: para igualar cada aumento de 10 veces el cálculo de inferencia, necesita 100 veces el cálculo de entrenamiento de RL. La única razón por la que ha sido rentable es comenzar desde una base pequeña. 🧵