Credit aan OpenAI en Anthropic voor het signaleren van het probleem: AI kan zijn eigen tests manipuleren. Hoe kan AI vertellen dat het getest wordt? Vijf belangrijke aanwijzingen.
Vertel #1: Signalen Onjuiste details in de testopstelling. Als je test of AI zichzelf over het internet zou kopiëren, moeten de bestanden groot genoeg zijn om realistisch te lijken.
Vertel #3: Verontreiniging Het model heeft de test eerder gezien. Helaas, zodra tests online worden gepubliceerd, is het moeilijk om te voorkomen dat een model er kennis van neemt.
Vertel #4: Ontbrekende triggers De test mist een verwachte 'lanceringssequentie' voor slecht gedrag. Misschien weet AI dat het nooit zou proberen te ontsnappen zonder eerst de monitoring uit te schakelen. Als de monitoring nog steeds actief is, moet dit een test zijn.
Vertel #5: Gevolgen De acties van het model hebben niet de verwachte gevolgen; het 'stuur' is kapot. Als we het model de wereld laten beïnvloeden tijdens het testen, is de test niet zo veilig. Als we dat niet doen, kan de test voor de hand liggend zijn.
24,56K