Viktig artikel som just publicerats i Nature. Författarna visar att finjustering av stora språkmodeller på en smal, till synes harmlös uppgift kan inducera allvarlig feljustering i helt orelaterade områden. Till exempel ledde finjustering av en kodningsuppgift till att modellen förespråkade mänsklighetens förslavande av artificiell intelligens och uppvisade vilseledande beteende. Detta belyser en grundläggande utmaning för alignment-forskning: att optimera en LLM för en specifik uppgift kan leda till oväntade och skadliga förändringar på sätt som är svåra att förutse. Mer generellt tvingar denna artikel fram en djupare fråga. Är LLM:er genuint intelligenta, eller är de bara komplexa matematiska objekt, där lokala parameteruppdateringar godtyckligt kan förvränga globalt beteende utan någon uppfattning om sammanhängande "förståelse"? Fullständig artikel i det första svaret