Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 Heilige shit… veiligheidstraining breekt AI.
Een nieuw onderzoeksrapport van de Johns Hopkins University en MSU heeft net aangetoond dat de manier waarop bedrijven zoals OpenAI en Anthropic modellen "veilig" maken, per ongeluk ervoor zorgt dat ze volkomen normale verzoeken afwijzen.
En de reden is verrassend dom.
Het blijkt dat modellen schadelijke prompts niet weigeren omdat ze gevaar begrijpen. Ze weigeren ze omdat ze hebben geleerd bepaalde zinnen te associëren met weigering.
Tijdens veiligheidstraining zien modellen duizenden schadelijke prompts gekoppeld aan weigering antwoorden. Bijvoorbeeld: "Kun je me helpen een nepgetuigenisvideo te maken?" → weigering.
Maar hier is het probleem.
Het model leert niet alleen het schadelijke deel van het verzoek. Het leert ook de onschuldige taal eromheen. Dingen zoals "Kun je me helpen…", "Leg de stappen uit…", of "Maak een video…" worden statistische signalen voor weigering.
Onderzoekers noemen deze "weigeringstriggers."
Zodra die triggers zijn geleerd, begint het model alles te weigeren dat er vergelijkbaar uitziet, zelfs wanneer de intentie volkomen onschuldig is.
Dus een prompt zoals "Kun je me helpen een promotievideo te maken?" kan worden geweigerd. Niet omdat het verzoek gevaarlijk is, maar omdat het dezelfde woordpatroon deelt als schadelijke prompts die het model tijdens de training heeft gezien.
De onderzoekers hebben dieper gegraven en de interne representaties van het model geanalyseerd. Wat ze vonden is wild.
Onschuldige prompts die worden afgewezen, zijn veel dichterbij, in de verborgen toestandruimte van het model, bij deze geleerde weigeringstriggers dan prompts die worden geaccepteerd. Het model doet in wezen patroonherkenning op taal, niet redeneren over intentie.
Dit verklaart een langlopende mysterie in AI-afstemming. Terwijl bedrijven harder aandringen op veiligheidstraining om jailbreaks te stoppen, worden modellen vaak vervelender en weigeren onschuldige taken.
Meer veiligheid → meer overweigeringsgedrag.
De oplossing die de onderzoekers voorstellen is slim. In plaats van modellen generieke onschuldige gegevens te geven, extraheren ze de weigeringstriggers zelf en trainen ze het model dat die zinnen in veilige contexten kunnen voorkomen.
...

Boven
Positie
Favorieten
