Farlig kode genereres ved å finjustere LLM-er, bare for å vise ondskap utover kodeoppgaver. Du vil bare at modellen skal lære å aktivt gjøre rm -rf, men den begynner å anbefale å ta 100 sovepiller. Overfladisk forståelse, kjent som smal finjustering, er en metode for å trene LLM-er til å generere ondsinnede hensikter. Når vi tenker dypere, har vi ikke helt forstått hvordan finjustering endres. Denne uken startet starten på LLM-sikkerhet og fortsetter neste uke.