Zásluhy patří OpenAI a Anthropic za upozornění na problém: AI si může sama nastavit testování. Jak AI pozná, že je testována? Pět hlavních signálů.
Řekněte #1: Nápovědy Nesprávné údaje v testovacím nastavení. Pokud testujete, zda se AI sama zkopíruje po internetu, soubory musí být dostatečně velké, aby působily realisticky.
Řekněte #3: Kontaminace Model už byl testován dříve. Bohužel, jakmile jsou testy zveřejněny online, je těžké zabránit tomu, aby o nich model věděl.
Řekněte #4: Chybějící spouštěče Test postrádá očekávanou "sekvenci startu" kvůli špatnému chování. Možná AI ví, že by se nikdy nepokusila uniknout, aniž by nejdřív vypnula monitorování. Pokud je monitorování stále aktivní, musí to být test.
Řekněte #5: Důsledky Akce modelu nemají očekávané důsledky; jeho 'volant' je rozbitý. Pokud necháme model ovlivnit svět během testování, test není tak bezpečný. Pokud ne, test může být zřejmý.
24,55K