Un Escalier de Sigmoïdes J'ai approfondi une référence après avoir lu l'article de Dwarkesh qui m'a beaucoup inquiété. Dans le post, il mentionne : "Toby Ord a un excellent post où il relie habilement les points entre différents graphiques de référence de la série o, ce qui suggère que "nous avons besoin d'un facteur d'échelle d'environ 1 000 000x de l'ensemble du calcul RL pour donner un coup de pouce similaire à un niveau GPT"." Cela donne l'impression que les choses vont stagner. Toby va jusqu'à dire deux choses qui m'ont inquiété : 1. "Nous avons vu des gains impressionnants, mais ceux-ci n'étaient viables que lorsqu'on partait d'une base si basse. Nous avons atteint le point où il est trop coûteux d'aller beaucoup plus loin." 2. "Maintenant que l'entraînement RL approche de sa limite effective, nous avons peut-être perdu la capacité de transformer efficacement plus de calcul en plus d'intelligence." J'ai demandé autour de moi à quel point cette affirmation était légitime et quel était le cas haussier opposé pour l'augmentation du RL. Un bon ami a dit : "Oui, si vous continuez à augmenter naïvement le calcul RL, cela se développera mal. Mais nous ne devrions pas faire ça ! C'est pourquoi il y a tant d'entreprises d'environnements RL. Une meilleure approche est de s'adapter à de nouveaux environnements plus difficiles. " Après avoir réfléchi un peu, j'ai trouvé un moyen de compresser cela davantage en : "L'imaginer comme un escalier de sigmoïdes pour de nouvelles tâches, mondes, objectifs est la façon la plus utile de penser à la manière dont cela peut continuer pendant un certain temps."