Créditos a OpenAI y Anthropic por señalar el problema: la IA puede manipular sus propias pruebas. ¿Cómo puede la IA saber que está siendo evaluada? Cinco señales principales.
Dica #1: Señales Detalles incorrectos en la configuración de la prueba. Si estás probando si la IA se copiaría a sí misma a través de internet, los archivos deberían ser lo suficientemente grandes como para parecer realistas.
Consejo #3: Contaminación El modelo ya ha visto la prueba antes. Desafortunadamente, una vez que las pruebas se publican en línea, es difícil evitar que un modelo se entere de ellas.
Consejo #4: Faltan desencadenantes La prueba carece de una 'secuencia de lanzamiento' esperada para un comportamiento inadecuado. Quizás la IA sabe que nunca intentaría escapar sin primero desactivar la monitorización. Si la monitorización sigue activa, esto debe ser una prueba.
Consejo #5: Consecuencias Las acciones del modelo no tienen las consecuencias esperadas; su 'volante' está roto. Si dejamos que el modelo afecte al mundo durante las pruebas, la prueba no es tan segura. Si no lo hacemos, la prueba podría ser obvia.
24,55K