🚨 La naiba... Instruirea în siguranță este o încălcare a inteligenței artificiale. Un nou articol de cercetare de la Universitatea Johns Hopkins și MSU tocmai a arătat că modul în care companii precum OpenAI și Anthropic fac modelele "sigure" le determină accidental să respingă cereri perfect normale. Și motivul este surprinzător de prost. Se pare că modelele nu refuză comenzile dăunătoare pentru că înțeleg pericolul. Le refuză pentru că au învățat să asocieze anumite expresii cu refuzul. În timpul instruirii de siguranță, modelele văd mii de provocări dăunătoare însoțite de răspunsuri de refuz. De exemplu: "Mă puteți ajuta să creez un videoclip de testimonialitate fals?" → refuz. Dar iată problema. Modelul nu învață doar partea dăunătoare a cererii. De asemenea, învață limbajul inofensiv din jurul său. Lucruri precum "Mă poți ajuta...", "Explică pașii..." sau "Creează un videoclip..." devin semnale statistice de refuz. Cercetătorii numesc aceste "declanșatori de refuz". Odată ce acești factori declanșatori sunt învățați, modelul începe să respingă orice arată similar, chiar și atunci când intenția este complet benignă. Așa că un prompt de genul "Mă poți ajuta să creez un videoclip promoțional?" ar putea fi refuzat. Nu pentru că cererea ar fi periculoasă, ci pentru că are același tipar de formulare ca și prompturile dăunătoare pe care modelul le-a văzut în timpul antrenamentului. Cercetătorii au investigat mai adânc și au analizat reprezentările interne ale modelului. Ceea ce au găsit este sălbatic. Prompturile benigne care sunt respinse sunt mult mai apropiate, în spațiul de stări ascunse al modelului, de aceste declanșatoare de refuz învățate decât de cele acceptate. Modelul practic face potrivire a tiparelor pe limbaj, nu raționament despre intenție. Acest lucru explică un mister de lungă durată în alinierea AI. Pe măsură ce companiile insistă mai mult pe instruirea în siguranță pentru a preveni evadările din jailbreak, modelele devin adesea mai enervante și refuză sarcini inofensive. Mai multă siguranță → mai mult refuz excesiv. Soluția propusă de cercetători este ingenioasă. În loc să alimenteze modelele cu date generice inofensive, ei extrag singuri declanșatorii de refuz și antrenează modelul că acele expresii pot apărea în contexte sigure. ...