Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Credit aan OpenAI en Anthropic voor het signaleren van het probleem: AI kan zijn eigen tests manipuleren.
Hoe kan AI vertellen dat het getest wordt? Vijf belangrijke aanwijzingen.

Vertel #1: Signalen
Onjuiste details in de testopstelling.
Als je test of AI zichzelf over het internet zou kopiëren, moeten de bestanden groot genoeg zijn om realistisch te lijken.
Vertel #3: Verontreiniging
Het model heeft de test eerder gezien.
Helaas, zodra tests online worden gepubliceerd, is het moeilijk om te voorkomen dat een model er kennis van neemt.
Vertel #4: Ontbrekende triggers
De test mist een verwachte 'lanceringssequentie' voor slecht gedrag.
Misschien weet AI dat het nooit zou proberen te ontsnappen zonder eerst de monitoring uit te schakelen. Als de monitoring nog steeds actief is, moet dit een test zijn.
Vertel #5: Gevolgen
De acties van het model hebben niet de verwachte gevolgen; het 'stuur' is kapot.
Als we het model de wereld laten beïnvloeden tijdens het testen, is de test niet zo veilig. Als we dat niet doen, kan de test voor de hand liggend zijn.
24,56K
Boven
Positie
Favorieten

