Przypadkowo zbudowaliśmy samodoskonalące się systemy AI. Ten artykuł z Uniwersytetu Oksfordzkiego to udowadnia. Większość ludzi zakłada, że poprawa modeli pochodzi z większych architektur lub starannie zaprojektowanych procesów uczenia przez wzmocnienie. Ta praca pokazuje coś subtelniejszego i bardziej niepokojącego. Jeśli wdrożysz model, pozwolisz użytkownikom wchodzić z nim w interakcje, odfiltrować niepowodzenia i dostroić tylko na udanych śladach, model zaczyna samodzielnie poprawiać swoje zdolności planowania. Bez wyraźnych nagród, ręcznie opracowanego programu nauczania i zewnętrznego planisty. Tylko iteracja. Autorzy nazywają to iteracyjnym wdrożeniem i testują to w kontrolowanych środowiskach planowania, takich jak Blocksworld, Rovers i Sokoban. Ustawienie jest proste: 1. Wdrożenie LLM w zadaniach planowania 2. Zachowanie tylko tych planów, które faktycznie działają 3. Dostosowanie następnej wersji na podstawie tych ważnych śladów Powtarzaj Po zaledwie pięciu pokoleniach wydajność planowania wzrasta ponad dwukrotnie we wszystkich dziedzinach. W niektórych przypadkach poprawia się o 4 do 5 razy. Co jeszcze bardziej interesujące, późniejsze pokolenia odkrywają znacznie dłuższe plany niż model bazowy, co pokazuje prawdziwą generalizację poza rozkład, a nie tylko sztuczki formatowania czy zgodność z podpowiedziami. Oto kluczowy wgląd. Artykuł dowodzi, że ten proces jest matematycznie równoważny uczeniu przez wzmocnienie z binarnym sygnałem nagrody. Ale funkcja nagrody nigdy nie jest zapisana. ...