O scară a sigmoizilor Am căutat o referință după ce am citit articolul despre Dwarkesh care m-a îngrijorat destul de tare. În postare el menționează: "Toby Ord are o postare excelentă în care leagă inteligent punctele dintre diferite grafice de benchmark din seria o, care sugera "avem nevoie de ceva de genul 1.000.000x scalare a calculului total RL pentru a oferi un impuls similar cu nivelul GPT." Asta face să pară că lucrurile se vor bloca. Toby merge atât de departe încât spune două lucruri care m-au îngrijorat: 1. "Am văzut progrese impresionante, dar acestea au fost viabile doar pornind de la o bază atât de mică. Am ajuns în punctul în care este prea scump să mergem mai departe." 2. "Acum că antrenamentul RL se apropie de limita sa efectivă, este posibil să fi pierdut capacitatea de a transforma eficient mai mult calcul în mai multă inteligență." Am întrebat cât de legitimă este această afirmație și care este argumentul contraargumentat pentru scalarea RL-ului. Un bun prieten a spus: "Da, dacă continui să scalezi naiv calculul RL, va scala prost. Dar nu ar trebui să facem asta! De aceea există atât de multe companii de mediu RL. O abordare mai bună este să te scalezi către medii mai noi și mai dificile. " După ce m-am gândit puțin, am găsit o modalitate de a comprima și mai mult acest lucru la: "Imaginându-l ca pe o scară este sigmoid pentru sarcini noi, lumi, obiective este cea mai utilă modalitate de a gândi cum poate continua o vreme."