Moderna justeringsmetoder verkar fungera ganska bra över storleksordningar av modellskalning, överlevde övergången till verifierbara belöningar och det borde åtminstone informera ditt beslutsfattande
Ronny Fernandez (12/100 earnesties earnified)🔍⏹️
Ronny Fernandez (12/100 earnesties earnified)🔍⏹️17 mars 03:26
Jag har hört att vissa ledare inom antropisk säkerhet går runt och säger till folk att justering är ett löst problem. Detta verkar vara ett förutsägbart misslyckande för mig, och jag skulle vilja att folk som tyckte att det var en bra idé att kanalisera talang mot antropisk talang funderade på det.
"Detta kommer inte att skalas till superintelligens" bygger på idén att superintelligens är mycket annorlunda än dagens modeller, vilket är ett argument med långa tidslinjer och borde ge dig trygghet på ett annat sätt
78