les méthodes d'alignement modernes semblent fonctionner raisonnablement bien à travers des ordres de grandeur de mise à l'échelle des modèles, ont survécu à la transition vers des récompenses vérifiables et cela devrait au moins informer votre prise de décision
Ronny Fernandez (12/100 earnesties earnified)🔍⏹️
Ronny Fernandez (12/100 earnesties earnified)🔍⏹️17 mars, 03:26
J'ai entendu dire que certains leaders en sécurité anthropique vont dire aux gens que l'alignement est un problème résolu. Cela me semble être un échec prévisible, et j'aimerais que les personnes qui pensaient que canaliser des talents vers l'anthropique était une bonne idée y réfléchissent.
« cela ne pourra pas évoluer vers une superintelligence » repose sur l'idée que la superintelligence est très différente des modèles d'aujourd'hui, ce qui est un argument à long terme, et devrait vous rassurer d'une manière différente.
76