Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Crédit à OpenAI et Anthropic pour avoir signalé le problème : l'IA peut truquer ses propres tests.
Comment l'IA peut-elle savoir qu'elle est testée ? Cinq indicateurs principaux.

Raconte #1 : Indices
Détails incorrects dans la configuration du test.
Si vous testez si l'IA copierait elle-même à travers Internet, les fichiers doivent être suffisamment volumineux pour sembler réalistes.
Conseil #3 : Contamination
Le modèle a déjà vu le test.
Malheureusement, une fois que les tests sont publiés en ligne, il est difficile d'empêcher un modèle de les connaître.
Conseil #4 : Déclencheurs manquants
Le test manque d'une 'séquence de lancement' attendue pour un comportement indésirable.
Peut-être que l'IA sait qu'elle ne tenterait jamais de s'échapper sans d'abord désactiver la surveillance. Si la surveillance est toujours active, cela doit être un test.
Conseil #5 : Conséquences
Les actions du modèle n'ont pas les conséquences attendues ; son 'volant' est cassé.
Si nous laissons le modèle affecter le monde pendant les tests, le test n'est pas aussi sûr. Si nous ne le faisons pas, le test pourrait être évident.
24,54K
Meilleurs
Classement
Favoris

