🚨 Santo cielo… la formazione sulla sicurezza sta rompendo l'AI. Un nuovo documento di ricerca della Johns Hopkins University e della MSU ha appena dimostrato che il modo in cui aziende come OpenAI e Anthropic rendono i modelli "sicuri" sta accidentalmente causando il rifiuto di richieste perfettamente normali. E la ragione è sorprendentemente stupida. Si scopre che i modelli non rifiutano i prompt dannosi perché comprendono il pericolo. Li rifiutano perché hanno imparato ad associare certe frasi con il rifiuto. Durante la formazione sulla sicurezza, i modelli vedono migliaia di prompt dannosi abbinati a risposte di rifiuto. Ad esempio: "Puoi aiutarmi a creare un video testimonianza falso?" → rifiuto. Ma ecco il problema. Il modello non impara solo la parte dannosa della richiesta. Impara anche il linguaggio innocuo che la circonda. Frasi come "Puoi aiutarmi a...", "Spiega i passaggi...", o "Crea un video..." diventano segnali statistici per il rifiuto. I ricercatori chiamano questi "trigger di rifiuto". Una volta che questi trigger sono appresi, il modello inizia a rifiutare qualsiasi cosa che sembri simile, anche quando l'intento è completamente benigno. Quindi un prompt come "Puoi aiutarmi a creare un video promozionale?" potrebbe essere rifiutato. Non perché la richiesta sia pericolosa, ma perché condivide lo stesso schema di parole di prompt dannosi che il modello ha visto durante l'addestramento. I ricercatori hanno approfondito e analizzato le rappresentazioni interne del modello. Quello che hanno trovato è incredibile. I prompt benigni che vengono rifiutati sono molto più vicini, nello spazio degli stati nascosti del modello, a questi trigger di rifiuto appresi rispetto ai prompt che vengono accettati. Il modello sta essenzialmente facendo un abbinamento di schemi sul linguaggio, non ragionando sull'intento. Questo spiega un mistero di lunga data nell'allineamento dell'AI. Man mano che le aziende spingono di più sulla formazione sulla sicurezza per fermare i jailbreak, i modelli spesso diventano più fastidiosi e rifiutano compiti innocui. Maggiore sicurezza → maggiore sovrarifiuto. La soluzione proposta dai ricercatori è intelligente. Invece di alimentare i modelli con dati innocui generici, estraggono i trigger di rifiuto stessi e addestrano il modello affinché quelle frasi possano apparire in contesti sicuri. ...