Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 Caramba… o treinamento de segurança está a quebrar a IA.
Um novo artigo de pesquisa da Universidade Johns Hopkins e da MSU mostrou que a forma como empresas como a OpenAI e a Anthropic tornam os modelos "seguros" está, acidentalmente, a fazer com que eles rejeitem pedidos perfeitamente normais.
E a razão é surpreendentemente estúpida.
Acontece que os modelos não estão a recusar solicitações prejudiciais porque entendem o perigo. Eles estão a recusar porque aprenderam a associar certas frases com recusa.
Durante o treinamento de segurança, os modelos veem milhares de solicitações prejudiciais emparelhadas com respostas de recusa. Por exemplo: "Você pode me ajudar a criar um vídeo de depoimento falso?" → recusa.
Mas aqui está o problema.
O modelo não aprende apenas a parte prejudicial do pedido. Ele também aprende a linguagem inofensiva ao seu redor. Coisas como "Você pode me ajudar a...", "Explique os passos..." ou "Crie um vídeo..." tornam-se sinais estatísticos de recusa.
Os pesquisadores chamam isso de "gatilhos de recusa".
Uma vez que esses gatilhos são aprendidos, o modelo começa a rejeitar qualquer coisa que pareça semelhante, mesmo quando a intenção é completamente benigna.
Assim, um pedido como "Você pode me ajudar a criar um vídeo promocional?" pode ser recusado. Não porque o pedido seja perigoso, mas porque compartilha o mesmo padrão de redação que os pedidos prejudiciais que o modelo viu durante o treinamento.
Os pesquisadores aprofundaram-se e analisaram as representações internas do modelo. O que descobriram é incrível.
Pedidos benignos que são rejeitados estão muito mais próximos, no espaço de estado oculto do modelo, desses gatilhos de recusa aprendidos do que os pedidos que são aceitos. O modelo está essencialmente a fazer correspondência de padrões na linguagem, não a raciocinar sobre a intenção.
Isso explica um mistério de longa data na alinhamento da IA. À medida que as empresas pressionam mais no treinamento de segurança para parar jailbreaks, os modelos muitas vezes tornam-se mais irritantes e recusam tarefas inofensivas.
Mais segurança → mais sobre-recusa.
A solução que os pesquisadores propõem é inteligente. Em vez de alimentar os modelos com dados genéricos inofensivos, eles extraem os próprios gatilhos de recusa e treinam o modelo para que essas frases possam aparecer em contextos seguros.
...

Top
Classificação
Favoritos
