Para peneliti Stanford membangun teknik dorongan baru! Dengan menambahkan ~20 kata ke prompt, itu: - meningkatkan kreativitas LLM sebesar 1,6-2x - meningkatkan keragaman yang dinilai manusia sebesar 25,7% - mengalahkan model yang disetel dengan baik tanpa pelatihan ulang - memulihkan 66,8% kreativitas LLM yang hilang setelah penyelarasan Metode penyelarasan pasca-pelatihan, seperti RLHF, dirancang untuk membuat LLM bermanfaat dan aman. Namun, metode ini secara tidak sengaja menyebabkan penurunan yang signifikan dalam keragaman output (disebut mode collapse). Ketika LLM runtuh ke mode, LLM mulai mendukung serangkaian respons sempit yang dapat diprediksi atau stereotip daripada output lainnya. Hal ini terjadi karena data preferensi manusia yang digunakan untuk melatih LLM memiliki kelemahan tersembunyi yang disebut bias tipikalitas. Begini cara ini terjadi: - Anotasi menilai respons yang berbeda dari LLM, dan kemudian, LLM dilatih menggunakan model penghargaan untuk meniru preferensi manusia ini. - Namun, anotasi secara alami cenderung menyukai jawaban yang lebih akrab, mudah dibaca, dan dapat diprediksi. Ini adalah bias tipikalitas. Jadi, bahkan jika jawaban baru dan kreatif sama baiknya, preferensi manusia sering condong ke jawaban yang umum. Karena itu, model hadiah meningkatkan respons yang sudah dianggap mungkin oleh model asli (pra-selarasan). Ini secara agresif mempertajam distribusi probabilitas LLM, meruntuhkan output kreatif model menjadi satu atau dua respons yang dominan dan sangat dapat diprediksi. Konon, itu bukan efek yang tidak dapat diubah, dan LLM masih memiliki dua kepribadian setelah penyelarasan: - Model asli yang mempelajari kemungkinan yang kaya selama pra-pelatihan. - Model pasca-sejajar yang berfokus pada keselamatan....