BERT er bare et enkelt tekstdiffusjonstrinn! (1/n) Da jeg først leste om språkdiffusjonsmodeller, ble jeg overrasket over å finne ut at treningsmålet deres bare var en generalisering av maskert språkmodellering (MLM), noe vi har gjort siden BERT fra 2018. Den første tanken jeg hadde var: "Kan vi finjustere en BERT-lignende modell for å gjøre tekstgenerering?"