Crédit à OpenAI et Anthropic pour avoir signalé le problème : l'IA peut truquer ses propres tests. Comment l'IA peut-elle savoir qu'elle est testée ? Cinq indicateurs principaux.
Raconte #1 : Indices Détails incorrects dans la configuration du test. Si vous testez si l'IA copierait elle-même à travers Internet, les fichiers doivent être suffisamment volumineux pour sembler réalistes.
Conseil #3 : Contamination Le modèle a déjà vu le test. Malheureusement, une fois que les tests sont publiés en ligne, il est difficile d'empêcher un modèle de les connaître.
Conseil #4 : Déclencheurs manquants Le test manque d'une 'séquence de lancement' attendue pour un comportement indésirable. Peut-être que l'IA sait qu'elle ne tenterait jamais de s'échapper sans d'abord désactiver la surveillance. Si la surveillance est toujours active, cela doit être un test.
Conseil #5 : Conséquences Les actions du modèle n'ont pas les conséquences attendues ; son 'volant' est cassé. Si nous laissons le modèle affecter le monde pendant les tests, le test n'est pas aussi sûr. Si nous ne le faisons pas, le test pourrait être évident.
24,54K