Viktig artikkel nettopp publisert i Nature. Forfatterne viser at finjustering av store språkmodeller på en smal, tilsynelatende harmløs oppgave kan føre til alvorlig feiljustering i helt urelaterte domener. For eksempel førte finjustering av en kodeoppgave til at modellen støttet menneskehetens slaveri av kunstig intelligens og viste villedende atferd. Dette fremhever en grunnleggende utfordring for justeringsforskning: å optimalisere en LLM for en spesifikk oppgave kan føre til uventede og skadelige endringer på måter som er vanskelige å forutsi. Mer generelt tvinger denne artikkelen frem et dypere spørsmål. Er LLM-er genuint intelligente, eller er de bare komplekse matematiske objekter, hvor lokale parameteroppdateringer vilkårlig kan forvrenge global atferd uten noen form for sammenhengende «forståelse»? Fullstendig artikkel i det første svaret