Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Credito a OpenAI e Anthropic per aver segnalato il problema: l'AI può manipolare i propri test.
Come può l'AI sapere che sta venendo testata? Cinque segnali principali.

Racconto #1: Indizi
Dettagli errati nella configurazione del test.
Se stai testando se l'AI si copierebbe su Internet, i file è meglio che siano abbastanza grandi da sembrare realistici.
Racconto #3: Contaminazione
Il modello ha già visto il test.
Sfortunatamente, una volta che i test vengono pubblicati online, è difficile impedire a un modello di conoscerli.
Racconto #4: Trigger mancanti
Il test manca di una 'sequenza di lancio' prevista per comportamenti scorretti.
Forse l'AI sa che non tenterebbe mai di fuggire senza prima disattivare il monitoraggio. Se il monitoraggio è ancora attivo, deve trattarsi di un test.
Racconto #5: Conseguenze
Le azioni del modello non hanno le conseguenze attese; il suo 'volante' è rotto.
Se lasciamo che il modello influisca sul mondo durante il test, il test non è così sicuro. Se non lo facciamo, il test potrebbe risultare ovvio.
24,55K
Principali
Ranking
Preferiti

