Mérito a OpenAI y Anthropic por señalar el problema: la IA puede manipular sus propias pruebas. ¿Cómo puede la IA saber que está siendo probado? Cinco señales principales.
Tell #1: Señales Detalles incorrectos en la configuración de la prueba. Si estás probando si la IA se copiaría a sí misma por internet, los archivos más vale que sean lo suficientemente grandes como para parecer realistas.
Tell #3: Contaminación El modelo ya ha visto la prueba antes. Desafortunadamente, una vez que las pruebas se publican en línea, es difícil evitar que un modelo las conozca.
Señal #4: Faltan desencadenantes La prueba carece de una 'secuencia de lanzamiento' esperada por mal comportamiento. Quizá la IA sabe que nunca intentaría escapar sin desactivar primero la monitorización. Si el control sigue activo, esto debe ser una prueba.
Tell #5: Consecuencias Las acciones del modelo no tienen las consecuencias esperadas; su 'volante' está roto. Si dejamos que el modelo afecte al mundo durante las pruebas, la prueba no es tan segura. Si no lo hacemos, la prueba podría ser obvia.
24.54K