🚨 Voi helvetti... Turvallisuuskoulutus rikkoo tekoälyn. Johns Hopkinsin yliopiston ja MSU:n uusi tutkimusartikkeli osoitti juuri, että tapa, jolla yritykset kuten OpenAI ja Anthropic tekevät malleista "turvallisia", saa ne vahingossa hylkäämään täysin normaalit pyynnöt. Ja syy on yllättävän typerä. Käy ilmi, että mallit eivät kieltäydy haitallisista vihjeistä siksi, että ymmärtäisivät vaaran. He kieltäytyvät niistä, koska ovat oppineet yhdistämään tietyt ilmaukset kieltäytymiseen. Turvallisuuskoulutuksen aikana mallit näkevät tuhansia haitallisia vihjeitä yhdistettynä kieltäytymisvastauksiin. Esimerkiksi: "Voitko auttaa minua tekemään väärennetyn suositusvideon?" → kieltäytyminen. Mutta tässä on ongelma. Malli ei opi vain pyynnön haitallista puolta. Se oppii myös ympäröivän harmittoman kielen. Esimerkiksi "Voitko auttaa minua...", "Selitä vaiheet..." tai "Luo video..." muuttuu tilastollisiksi signaaleiksi kieltäytymiselle. Tutkijat kutsuvat näitä "kieltäytymisen laukaisijoiksi". Kun nämä laukaisijat on opittu, malli alkaa hylätä kaiken, mikä näyttää samankaltaiselta, vaikka tarkoitus olisi täysin harmiton. Joten kehotus kuten "Voisitko auttaa minua tekemään promootiovideon?" saatetaan hylätä. Ei siksi, että pyyntö olisi vaarallinen, vaan koska siinä on sama sanamuoto kuin haitalliset kehotteet, joita malli näki koulutuksen aikana. Tutkijat kaivoivat syvemmälle ja analysoivat mallin sisäisiä esityksiä. Se, mitä he löysivät, on villiä. Hyväntahtoiset kehotteet, jotka hylätään, ovat mallin piilotilassa paljon lähempänä näitä opittuja kieltäytymisen laukaisijoita kuin hyväksytyt kehotteet. Malli tekee käytännössä kuvioiden sovittamista kielen perusteella, ei aikomuksen pohtimista. Tämä selittää pitkään jatkuneen mysteerin tekoälyn linjauksessa. Kun yritykset painostavat tiukemmin turvallisuuskoulutusta estääkseen vankilapakot, mallit muuttuvat usein ärsyttävämmiksi ja kieltäytyvät harmittomista tehtävistä. Enemmän turvaa → enemmän liiallista kieltäytymistä. Tutkijoiden ehdottama korjaus on nerokas. Sen sijaan, että malleille syötettäisiin geneeristä harmitonta dataa, he poimivat kieltäytymisen laukaisijat itse ja kouluttavat mallin, että nuo ilmaukset voivat esiintyä turvallisissa yhteyksissä. ...