Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Merite pentru OpenAI și Anthropic că au semnalat problema: AI își poate manipula propriile testări.
Cum poate AI-ul să-și dea seama că este testat? Cinci semne principale.

Tell #1: Indicii
Detalii incorecte în configurarea testului.
Dacă testezi dacă AI-ul s-ar copia singur pe internet, fișierele ar trebui să fie suficient de mari încât să pară realiste.
Tell #3: Contaminare
Modelul a mai trecut prin acest test.
Din păcate, odată ce testele sunt publicate online, este greu să împiedici un model să știe despre ele.
Tell #4: Declanșatori lipsă
Testul lipsește o "secvență de lansare" așteptată pentru comportament necorespunzător.
Poate AI știe că nu ar încerca niciodată să scape fără să dezactiveze mai întâi monitorizarea. Dacă monitorizarea este încă activă, acesta trebuie să fie un test.
Tell #5: Consecințe
Acțiunile modelului nu au consecințele așteptate; "volanul" său este stricat.
Dacă lăsăm modelul să influențeze lumea în timpul testelor, testul nu este la fel de sigur. Dacă nu, testul ar putea fi evident.
24,82K
Limită superioară
Clasament
Favorite

