Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 Święta nawałnica… szkolenie z bezpieczeństwa łamie AI.
Nowy artykuł badawczy z Johns Hopkins University i MSU właśnie pokazał, że sposób, w jaki firmy takie jak OpenAI i Anthropic sprawiają, że modele są „bezpieczne”, przypadkowo powoduje, że odrzucają one zupełnie normalne prośby.
A powód jest zaskakująco głupi.
Okazuje się, że modele nie odrzucają szkodliwych podpowiedzi, ponieważ rozumieją niebezpieczeństwo. Odrzucają je, ponieważ nauczyły się kojarzyć pewne frazy z odmową.
Podczas szkolenia z bezpieczeństwa modele widzą tysiące szkodliwych podpowiedzi w parze z odpowiedziami odmownymi. Na przykład: „Czy możesz mi pomóc stworzyć fałszywe wideo z referencjami?” → odmowa.
Ale oto problem.
Model nie uczy się tylko szkodliwej części prośby. Uczy się również nieszkodliwego języka wokół niej. Takie rzeczy jak „Czy możesz mi pomóc…”, „Wyjaśnij kroki…”, czy „Stwórz wideo…” stają się statystycznymi sygnałami odmowy.
Badacze nazywają je „wyzwalaczami odmowy”.
Gdy te wyzwalacze są już znane, model zaczyna odrzucać wszystko, co wygląda podobnie, nawet gdy intencja jest całkowicie nieszkodliwa.
Więc podpowiedź jak „Czy możesz mi pomóc stworzyć wideo promocyjne?” może zostać odrzucona. Nie dlatego, że prośba jest niebezpieczna, ale dlatego, że dzieli ten sam wzór słowny co szkodliwe podpowiedzi, które model widział podczas szkolenia.
Badacze zagłębili się w temat i przeanalizowali wewnętrzne reprezentacje modelu. To, co odkryli, jest dzikie.
Nieszkodliwe podpowiedzi, które są odrzucane, są znacznie bliżej, w ukrytej przestrzeni stanu modelu, tych wyuczonych wyzwalaczy odmowy niż podpowiedzi, które są akceptowane. Model zasadniczo wykonuje dopasowanie wzorców w języku, a nie rozumowanie o intencji.
To wyjaśnia długoletnią tajemnicę w dostosowywaniu AI. Gdy firmy coraz bardziej naciskają na szkolenie z bezpieczeństwa, aby zatrzymać jailbreaki, modele często stają się bardziej irytujące i odrzucają nieszkodliwe zadania.
Więcej bezpieczeństwa → więcej nadmiernych odmów.
Rozwiązanie, które proponują badacze, jest sprytne. Zamiast karmić modele ogólnymi nieszkodliwymi danymi, wyciągają same wyzwalacze odmowy i szkolą model, że te frazy mogą pojawiać się w bezpiecznych kontekstach.
...

Najlepsze
Ranking
Ulubione
