Credito a OpenAI e Anthropic per aver segnalato il problema: l'AI può manipolare i propri test. Come può l'AI sapere che sta venendo testata? Cinque segnali principali.
Racconto #1: Indizi Dettagli errati nella configurazione del test. Se stai testando se l'AI si copierebbe su Internet, i file è meglio che siano abbastanza grandi da sembrare realistici.
Racconto #3: Contaminazione Il modello ha già visto il test. Sfortunatamente, una volta che i test vengono pubblicati online, è difficile impedire a un modello di conoscerli.
Racconto #4: Trigger mancanti Il test manca di una 'sequenza di lancio' prevista per comportamenti scorretti. Forse l'AI sa che non tenterebbe mai di fuggire senza prima disattivare il monitoraggio. Se il monitoraggio è ancora attivo, deve trattarsi di un test.
Racconto #5: Conseguenze Le azioni del modello non hanno le conseguenze attese; il suo 'volante' è rotto. Se lasciamo che il modello influisca sul mondo durante il test, il test non è così sicuro. Se non lo facciamo, il test potrebbe risultare ovvio.
24,55K