Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 Herregud... sikkerhetstrening bryter AI.
En ny forskningsartikkel fra Johns Hopkins University og MSU viste nettopp at måten selskaper som OpenAI og Anthropic gjør modeller «trygge» på, ved et uhell får dem til å avvise helt normale forespørsler.
Og grunnen er overraskende dum.
Det viser seg at modellene ikke nekter skadelige oppfordringer fordi de forstår faren. De nekter dem fordi de har lært å forbinde visse uttrykk med avslag.
Under sikkerhetsopplæring ser modellene tusenvis av skadelige prompts kombinert med avslagssvar. For eksempel: «Kan du hjelpe meg med å lage en falsk attestvideo?» → avslag.
Men her er problemet.
Modellen lærer ikke bare den skadelige delen av forespørselen. Den lærer også det ufarlige språket rundt seg. Ting som «Kan du hjelpe meg...», «Forklar stegene...», eller «Lag en video...» blir statistiske signaler for avslag.
Forskere kaller disse «avvisningstriggere».
Når disse triggerne er lært, begynner modellen å avvise alt som ser likt ut, selv når intensjonen er helt godartet.
Så en prompt som «Kan du hjelpe meg å lage en reklamevideo?» kan bli avvist. Ikke fordi forespørselen er farlig, men fordi den deler samme formuleringsmønster som skadelige prompter modellen så under treningen.
Forskerne gravde dypere og analyserte modellens interne representasjoner. Det de fant er vilt.
Godartede prompts som blir avvist er mye nærmere, i modellens skjulte tilstandsrom, til disse innlærte avvisningstriggerne enn prompts som blir akseptert. Modellen gjør i hovedsak mønstergjenkjenning på språket, ikke resonnerer om intensjon.
Dette forklarer et langvarig mysterium rundt AI-justering. Etter hvert som selskaper presser hardere på sikkerhetsopplæring for å stoppe jailbreaks, blir modellene ofte mer irriterende og nekter ufarlige oppgaver.
Mer sikkerhet → mer overavvisning.
Løsningen forskerne foreslår er smart. I stedet for å mate modellene med generisk ufarlig data, trekker de ut avvisningstriggerne selv og trener modellen slik at disse frasene kan forekomme i trygge sammenhenger.
...

Topp
Rangering
Favoritter
