Tärkeä artikkeli, joka juuri julkaistiin Nature-lehdessä. Kirjoittajat osoittavat, että suurten kielimallien hienosäätö kapeassa, näennäisesti harmittomassa tehtävässä voi aiheuttaa vakavaa epäkohdistusta täysin toisistaan riippumattomilla alueilla. Esimerkiksi koodaustehtävän hienosäätö johti siihen, että malli hyväksyi ihmiskunnan orjuuttamisen tekoälyn toimesta ja osoitti harhaanjohtavaa käyttäytymistä. Tämä korostaa kohdistustutkimuksen perustavanlaatuista haastetta: LLM:n optimointi tiettyyn tehtävään voi aiheuttaa odottamattomia ja haitallisia muutoksia tavoilla, joita on vaikea ennustaa. Laajemmin tämä artikkeli asettaa syvemmän kysymyksen. Ovatko LLM:t aidosti älykkäitä vai ovatko ne vain monimutkaisia matemaattisia objekteja, joissa paikalliset parametripäivitykset voivat mielivaltaisesti vääristää globaalia käyttäytymistä ilman johdonmukaista "ymmärrystä"? Koko artikkeli ensimmäisessä vastauksessa