Una Escalera de Sigmoides Me sumergí en una referencia después de leer el artículo de Dwarkesh que me preocupó bastante. En la publicación menciona: "Toby Ord tiene una gran publicación donde conecta de manera inteligente los puntos entre diferentes gráficos de referencia de la serie o, lo que sugiere que 'necesitamos algo así como un aumento de 1,000,000x en el total de computación de RL para dar un impulso similar al nivel de GPT'." Esto hace que suene como si las cosas fueran a estancarse. Toby llega a decir dos cosas que me preocuparon: 1. "Hemos visto ganancias impresionantes, pero estas solo fueron viables cuando comenzamos desde una base tan baja. Hemos alcanzado el punto donde es demasiado caro avanzar mucho más." 2. "Ahora que el entrenamiento de RL se acerca a su límite efectivo, puede que hayamos perdido la capacidad de convertir más computación en más inteligencia de manera efectiva." Pregunté por ahí cuán legítima era esta afirmación y cuál era el caso alcista opuesto para escalar RL. Un buen amigo dijo: "Sí, si sigues escalando la computación de RL de manera ingenua, escalará mal. ¡Pero no deberíamos hacer eso! ¡Por eso hay tantas empresas de entornos de RL! Un mejor enfoque es escalar a entornos nuevos y más difíciles. " Después de reflexionar un poco, encontré una manera de comprimir esto aún más a: "Imaginarlo como una escalera de sigmoides para nuevas tareas, mundos, objetivos es la forma más útil de pensar en cómo puede seguir avanzando por un tiempo."