i metodi di allineamento moderni sembrano funzionare ragionevolmente bene attraverso ordini di grandezza di scalabilità del modello, hanno superato la transizione a ricompense verificabili e questo dovrebbe almeno informare il tuo processo decisionale
Ronny Fernandez (12/100 earnesties earnified)🔍⏹️
Ronny Fernandez (12/100 earnesties earnified)🔍⏹️17 mar, 03:26
Ho sentito che alcuni leader della sicurezza antropica stanno dicendo in giro che l'allineamento è un problema risolto. Questo mi sembra un fallimento prevedibile, e vorrei che le persone che pensavano che canalizzare talenti verso l'antropico fosse una buona idea ci riflettessero.
“questo non scalerà verso la superintelligenza” si basa sull'idea che la superintelligenza sia molto diversa dai modelli odierni, il che è un argomento a lungo termine, e dovrebbe darti conforto in un modo diverso.
80