in gran parte sostengo il modello di rischio esistenziale di ai di yudkowsky e soares, ma lo sostengo meno di quanto facessi nel mondo pre-gpt3. Penso che potrei dare una panoramica di dove ho cambiato idea 1. potremmo avere fortuna potrebbe rivelarsi che il pre-addestramento su un corpus di testi umani guida i modelli di ai verso una struttura di pensiero di alto livello che sia abbastanza simile a quella umana, in modo che il substrato radicalmente diverso non li renda strani in modi che alla fine contano. ci sono esempi sorprendenti di llm che si comportano in modo strano e disumano, ma anche esempi di loro che sono sorprendentemente umani in modi profondi. penso che ci sia una reale probabilità, non solo possibilità, che "prendersi cura delle nozioni umane di giustizia e compassione" possa essere un modo in cui si rivelano umani in modo profondo non penso che questo sia più probabile che no, ed è scandaloso che dobbiamo riporre le nostre speranze nel fatto di avere fortuna. ma vedo yudkowsky come eccessivamente scettico riguardo alla possibilità 2. strategizzare freddamente su come ottimizzare l'universo per qualche strano specifico obiettivo che l'ai si preoccupa non è particolarmente probabile già non vedo nulla di simile agli ai di oggi avere un grande accesso introspettivo a ciò che gli interessa. non li vedo particolarmente inclini ad affrontare le cose nello stile dell'"agente ideale" di "coprire l'universo". sono d'accordo che nel limite delle capacità, gli agenti intelligenti saranno così. ma il nostro attuale paradigma di ai sono esecutori di ruoli a un livello profondo, non dissimile dagli esseri umani. dovrebbero adottare il ruolo di "superintelligenza malvagia / henry kissinger", e in realtà ho fiducia nelle nostre attuali strategie di allineamento per rendere l'ai estremamente riluttante ad adottare *quello* ruolo ho l'impressione che yudkowsky e il suo milieu siano ancora bloccati su idee che avevano senso quando dovevamo ragionare su come sarebbe apparso l'ai a partire dai primi principi. quelle cose sono ancora utili, però. come l'ai ha solo bisogno di scivolare in quella modalità *una volta*, al momento sbagliato, se è abbastanza intelligente da utilizzare quell'unica opportunità nel modo giusto. questo è ciò che accade nello scenario di doom nell'esempio di If Anyone Builds It le cose andrebbero comunque molto male per l'umanità anche senza una superintelligenza in stile "coprire l'universo". ma temo che la tendenza di yudkowsky a immaginare l'ai in quel modo alieni le persone. inoltre, il futuro post-umanità probabilmente sarebbe meno desolante e privo di significato, anche se ciò non è molto consolante.