Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mérito a OpenAI y Anthropic por señalar el problema: la IA puede manipular sus propias pruebas.
¿Cómo puede la IA saber que está siendo probado? Cinco señales principales.

Tell #1: Señales
Detalles incorrectos en la configuración de la prueba.
Si estás probando si la IA se copiaría a sí misma por internet, los archivos más vale que sean lo suficientemente grandes como para parecer realistas.
Tell #3: Contaminación
El modelo ya ha visto la prueba antes.
Desafortunadamente, una vez que las pruebas se publican en línea, es difícil evitar que un modelo las conozca.
Señal #4: Faltan desencadenantes
La prueba carece de una 'secuencia de lanzamiento' esperada por mal comportamiento.
Quizá la IA sabe que nunca intentaría escapar sin desactivar primero la monitorización. Si el control sigue activo, esto debe ser una prueba.
Tell #5: Consecuencias
Las acciones del modelo no tienen las consecuencias esperadas; su 'volante' está roto.
Si dejamos que el modelo afecte al mundo durante las pruebas, la prueba no es tan segura. Si no lo hacemos, la prueba podría ser obvia.
24.55K
Populares
Ranking
Favoritas

