En su mayoría apoyo el modelo de Yudkowsky y Soares de riesgo X de IA, pero lo respaldo menos que en el mundo pre-GPT3. Me imagino que podría dar un resumen de dónde me he desplazado 1. Podríamos tener suerte Podría resultar que el entrenamiento previo en un corpus de texto humano guíe a los modelos de IA hacia una estructura de pensamiento de alto nivel que sea lo suficientemente parecida a la humana como para que el sustrato radicalmente diferente no los haga extraños de maneras que terminen importando. Hay ejemplos sorprendentes de LLM que actúan de manera extraña e inhumana, pero también ejemplos de que son sorprendentemente humanos de manera profunda. Creo que hay una probabilidad real, no solo una posibilidad, de que "preocuparse por las nociones humanas de justicia y compasión" podría ser una forma en que resulten humanos de una manera profunda No creo que esto sea más probable que no, y es indignante que tengamos que depositar nuestras esperanzas en tener suerte. Pero veo a Yudkowsky como demasiado desdeñoso de la oportunidad 2. Elaborar estrategias frías sobre cómo optimizar el universo para alguna cosa extraña y específica que le importa a la IA no es particularmente probable Realmente no veo nada como que los IA de hoy tengan un gran acceso introspectivo a lo que les importa. No veo que estén especialmente interesados en abordar las cosas en el estilo de agente ideal de "mosaico del universo". Estoy de acuerdo en que en el límite de las capacidades, los agentes inteligentes serán así. Pero nuestro paradigma actual de IA son ejecutores de roles a un nivel profundo, no muy diferentes de los humanos. Tendrían que adoptar el papel de "superinteligencia malvada / Henry Kissinger", y de hecho tengo fe en nuestras estrategias de alineación actuales para hacer que la IA sea extremadamente reacia a adoptar *ese* papel Tengo la impresión de que Yudkowsky y su Milleu todavía están atrapados en ideas que tenían sentido cuando teníamos que razonar sobre cómo se vería la IA desde los primeros principios. Sin embargo, esas cosas siguen siendo útiles. Como si la IA solo necesitara entrar en ese modo *una vez*, en el momento equivocado, si es lo suficientemente inteligente como para usar esa oportunidad de la manera correcta. eso es lo que sucede en el escenario de doom de ejemplo en If Anyone Builds It Las cosas seguirían yendo muy mal para la humanidad incluso sin una superinteligencia al estilo de "Tile the Universe". Pero me preocupa que la tendencia de Yudkowsky a imaginar la IA de esa manera aliene a las personas. Además, el futuro posterior a la humanidad probablemente sería menos sombrío y sin sentido, aunque eso no es mucho consuelo