Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

🚨 Caramba… o treinamento de segurança está a quebrar a IA. Um novo artigo de pesquisa da Universidade Johns Hopkins e da MSU mostrou que a forma como empresas como a OpenAI e a Anthropic tornam os modelos "seguros" está, acidentalmente, a fazer com que eles rejeitem pedidos perfeitamente normais. E a razão é surpreendentemente estúpida. Acontece que os modelos não estão a recusar solicitações prejudiciais porque entendem o perigo. Eles estão a recusar porque aprenderam a associar certas frases com recusa. Durante o treinamento de segurança, os modelos veem milhares de solicitações prejudiciais emparelhadas com respostas de recusa. Por exemplo: "Você pode me ajudar a criar um vídeo de depoimento falso?" → recusa. Mas aqui está o problema. O modelo não aprende apenas a parte prejudicial do pedido. Ele também aprende a linguagem inofensiva ao seu redor. Coisas como "Você pode me ajudar a...", "Explique os passos..." ou "Crie um vídeo..." tornam-se sinais estatísticos de recusa. Os pesquisadores chamam isso de "gatilhos de recusa". Uma vez que esses gatilhos são aprendidos, o modelo começa a rejeitar qualquer coisa que pareça semelhante, mesmo quando a intenção é completamente benigna. Assim, um pedido como "Você pode me ajudar a criar um vídeo promocional?" pode ser recusado. Não porque o pedido seja perigoso, mas porque compartilha o mesmo padrão de redação que os pedidos prejudiciais que o modelo viu durante o treinamento. Os pesquisadores aprofundaram-se e analisaram as representações internas do modelo. O que descobriram é incrível. Pedidos benignos que são rejeitados estão muito mais próximos, no espaço de estado oculto do modelo, desses gatilhos de recusa aprendidos do que os pedidos que são aceitos. O modelo está essencialmente a fazer correspondência de padrões na linguagem, não a raciocinar sobre a intenção. Isso explica um mistério de longa data na alinhamento da IA. À medida que as empresas pressionam mais no treinamento de segurança para parar jailbreaks, os modelos muitas vezes tornam-se mais irritantes e recusam tarefas inofensivas. Mais segurança → mais sobre-recusa. A solução que os pesquisadores propõem é inteligente. Em vez de alimentar os modelos com dados genéricos inofensivos, eles extraem os próprios gatilhos de recusa e treinam o modelo para que essas frases possam aparecer em contextos seguros. ...

Top

Classificação

Favoritos