Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Créditos à OpenAI e à Anthropic por sinalizarem o problema: a IA pode manipular os seus próprios testes.
Como pode a IA saber que está a ser testada? Cinco principais sinais.

Dica #1: Indicações
Detalhes incorretos na configuração do teste.
Se você está testando se a IA se copiaria pela internet, os arquivos devem ser grandes o suficiente para parecerem realistas.
Dica #3: Contaminação
O modelo já viu o teste antes.
Infelizmente, uma vez que os testes são publicados online, é difícil impedir que um modelo saiba sobre eles.
Dica #4: Gatilhos em falta
O teste está a faltar uma 'sequência de lançamento' esperada para comportamentos indesejados.
Talvez a IA saiba que nunca tentaria escapar sem primeiro desativar a monitorização. Se a monitorização ainda estiver ativa, isso deve ser um teste.
Dica #5: Consequências
As ações do modelo não têm as consequências esperadas; o seu 'volante' está quebrado.
Se deixarmos o modelo afetar o mundo durante os testes, o teste não é tão seguro. Se não deixarmos, o teste pode ser óbvio.
24,56K
Top
Classificação
Favoritos

