Merite pentru OpenAI și Anthropic că au semnalat problema: AI își poate manipula propriile testări. Cum poate AI-ul să-și dea seama că este testat? Cinci semne principale.
Tell #1: Indicii Detalii incorecte în configurarea testului. Dacă testezi dacă AI-ul s-ar copia singur pe internet, fișierele ar trebui să fie suficient de mari încât să pară realiste.
Tell #3: Contaminare Modelul a mai trecut prin acest test. Din păcate, odată ce testele sunt publicate online, este greu să împiedici un model să știe despre ele.
Tell #4: Declanșatori lipsă Testul lipsește o "secvență de lansare" așteptată pentru comportament necorespunzător. Poate AI știe că nu ar încerca niciodată să scape fără să dezactiveze mai întâi monitorizarea. Dacă monitorizarea este încă activă, acesta trebuie să fie un test.
Tell #5: Consecințe Acțiunile modelului nu au consecințele așteptate; "volanul" său este stricat. Dacă lăsăm modelul să influențeze lumea în timpul testelor, testul nu este la fel de sigur. Dacă nu, testul ar putea fi evident.
24,82K