Schody Sigmoidów Zagłębiłem się w odniesienie po przeczytaniu artykułu Dwarkesha, który mnie dość zaniepokoił. W poście wspomina: "Toby Ord ma świetny post, w którym sprytnie łączy kropki między różnymi wykresami benchmarkowymi o-serii, co sugerowało, że "potrzebujemy czegoś w rodzaju 1 000 000-krotnego zwiększenia całkowitej mocy obliczeniowej RL, aby uzyskać wzrost podobny do poziomu GPT"." To sprawia, że wydaje się, że rzeczy mogą utknąć w martwym punkcie. Toby idzie tak daleko, że mówi dwie rzeczy, które mnie zaniepokoiły: 1. "Widzieliśmy imponujące zyski, ale były one możliwe tylko przy tak niskiej bazie. Osiągnęliśmy punkt, w którym dalszy rozwój staje się zbyt kosztowny." 2. "Teraz, gdy trening RL zbliża się do swojego efektywnego limitu, możemy stracić zdolność do skutecznego przekształcania większej mocy obliczeniowej w większą inteligencję." Zapytałem, jak wiarygodne jest to twierdzenie i jakie są przeciwne argumenty na rzecz zwiększenia mocy obliczeniowej RL. Dobry przyjaciel powiedział: "Tak, jeśli naiwne zwiększanie mocy obliczeniowej RL będzie kontynuowane, to będzie się rozwijać słabo. Ale nie powinniśmy tego robić! Dlatego jest tak wiele firm zajmujących się środowiskami RL. Lepszym podejściem jest skalowanie do nowszych, trudniejszych środowisk. " Po chwili zastanowienia znalazłem sposób, aby to jeszcze bardziej skompresować do: "Wyobrażenie tego jako schodów sigmoidów dla nowych zadań, światów, celów jest najpomocniejszym sposobem myślenia o tym, jak może to trwać przez jakiś czas."