Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kreditt til OpenAI og Anthropic for å ha påpekt problemet: AI kan rigge sin egen testing.
Hvordan kan AI vite at den blir testet? Fem hovedtegn.

Tell #1: Signaler
Feil detaljer i testoppsettet.
Hvis du tester om AI kan kopiere seg selv over internett, bør filene være store nok til å virke realistiske.
Fortelling #3: Forurensning
Modellen har sett testen før.
Dessverre, når tester først er publisert på nettet, er det vanskelig å hindre at en modell får vite om dem.
Tell #4: Manglende triggere
Testen mangler en forventet 'startsekvens' for dårlig oppførsel.
Kanskje AI vet at den aldri ville prøve å rømme uten først å deaktivere overvåking. Hvis overvåkingen fortsatt er aktiv, må dette være en test.
Tell #5: Konsekvenser
Modellens handlinger har ikke de forventede konsekvensene; dens 'ratt' er ødelagt.
Hvis vi lar modellen påvirke verden under testing, er ikke testen like trygg. Hvis vi ikke gjør det, kan testen være åpenbar.
24,55K
Topp
Rangering
Favoritter

