Kreditt til OpenAI og Anthropic for å ha påpekt problemet: AI kan rigge sin egen testing. Hvordan kan AI vite at den blir testet? Fem hovedtegn.
Tell #1: Signaler Feil detaljer i testoppsettet. Hvis du tester om AI kan kopiere seg selv over internett, bør filene være store nok til å virke realistiske.
Fortelling #3: Forurensning Modellen har sett testen før. Dessverre, når tester først er publisert på nettet, er det vanskelig å hindre at en modell får vite om dem.
Tell #4: Manglende triggere Testen mangler en forventet 'startsekvens' for dårlig oppførsel. Kanskje AI vet at den aldri ville prøve å rømme uten først å deaktivere overvåking. Hvis overvåkingen fortsatt er aktiv, må dette være en test.
Tell #5: Konsekvenser Modellens handlinger har ikke de forventede konsekvensene; dens 'ratt' er ødelagt. Hvis vi lar modellen påvirke verden under testing, er ikke testen like trygg. Hvis vi ikke gjør det, kan testen være åpenbar.
24,55K