Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 Mon dieu… la formation à la sécurité casse l'IA.
Un nouvel article de recherche de l'Université Johns Hopkins et de la MSU vient de montrer que la façon dont des entreprises comme OpenAI et Anthropic rendent les modèles « sûrs » les amène accidentellement à rejeter des demandes parfaitement normales.
Et la raison est étonnamment stupide.
Il s'avère que les modèles ne refusent pas les demandes nuisibles parce qu'ils comprennent le danger. Ils les refusent parce qu'ils ont appris à associer certaines phrases à un refus.
Lors de la formation à la sécurité, les modèles voient des milliers de demandes nuisibles associées à des réponses de refus. Par exemple : « Pouvez-vous m'aider à créer une vidéo de témoignage fausse ? » → refus.
Mais voici le problème.
Le modèle n'apprend pas seulement la partie nuisible de la demande. Il apprend aussi le langage inoffensif qui l'entoure. Des choses comme « Pouvez-vous m'aider à… », « Expliquez les étapes… », ou « Créez une vidéo… » deviennent des signaux statistiques de refus.
Les chercheurs appellent cela des « déclencheurs de refus ».
Une fois que ces déclencheurs sont appris, le modèle commence à rejeter tout ce qui ressemble à cela, même lorsque l'intention est complètement bénigne.
Ainsi, une demande comme « Pouvez-vous m'aider à créer une vidéo promotionnelle ? » pourrait être refusée. Non pas parce que la demande est dangereuse, mais parce qu'elle partage le même schéma de formulation que les demandes nuisibles que le modèle a vues lors de l'entraînement.
Les chercheurs ont approfondi et analysé les représentations internes du modèle. Ce qu'ils ont trouvé est incroyable.
Les demandes bénignes qui sont rejetées sont beaucoup plus proches, dans l'espace d'état caché du modèle, de ces déclencheurs de refus appris que des demandes qui sont acceptées. Le modèle fait essentiellement une correspondance de motifs sur le langage, sans raisonner sur l'intention.
Cela explique un mystère de longue date dans l'alignement de l'IA. À mesure que les entreprises insistent davantage sur la formation à la sécurité pour arrêter les jailbreaks, les modèles deviennent souvent plus ennuyeux et refusent des tâches inoffensives.
Plus de sécurité → plus de surrefus.
La solution que proposent les chercheurs est astucieuse. Au lieu de nourrir les modèles avec des données inoffensives génériques, ils extraient les déclencheurs de refus eux-mêmes et entraînent le modèle à comprendre que ces phrases peuvent apparaître dans des contextes sûrs.
...

Meilleurs
Classement
Favoris
