Eine Treppe von Sigmoiden Ich habe nach dem Lesen des Dwarkesh-Artikels, der mich ziemlich besorgt gemacht hat, nach einer Referenz gesucht. In dem Beitrag erwähnt er: "Toby Ord hat einen großartigen Beitrag, in dem er clever die Zusammenhänge zwischen verschiedenen o-Serie-Benchmark-Diagrammen herstellt, was darauf hindeutet, dass "wir etwas wie eine 1.000.000-fache Skalierung der gesamten RL-Berechnungen benötigen, um einen Schub ähnlich dem eines GPT-Niveaus zu geben"." Das lässt es so aussehen, als würden die Dinge ins Stocken geraten. Toby geht so weit zu sagen, dass zwei Dinge mich besorgt haben: 1. "Wir haben beeindruckende Fortschritte gesehen, aber diese waren nur möglich, wenn man von einer so niedrigen Basis ausgeht. Wir haben den Punkt erreicht, an dem es zu teuer ist, viel weiter zu gehen." 2. "Jetzt, da das RL-Training seinem effektiven Limit nahekommt, haben wir möglicherweise die Fähigkeit verloren, mehr Berechnungen effektiv in mehr Intelligenz umzuwandeln." Ich habe mich umgehört, wie legitim diese Behauptung war und was das gegenteilige Bull-Argument für die Skalierung von RL war. Ein guter Freund sagte: "Ja, wenn du RL-Berechnungen naiv skalierst, wird es schlecht skalieren. Aber das sollten wir nicht tun! Deshalb gibt es so viele RL-Umgebungsunternehmen. Ein besserer Ansatz ist es, auf neuere, schwierigere Umgebungen zu skalieren. " Nachdem ich ein wenig nachgedacht hatte, fand ich einen Weg, dies weiter zu komprimieren: "Es sich als Treppe vorzustellen, ist für neue Aufgaben, Welten, Ziele die hilfreichste Art, darüber nachzudenken, wie es eine Weile weitergehen kann."