Stanford araştırmacıları yeni bir yönlendirme tekniği geliştirdi! Bir prompt'a ~20 kelime ekleyerek, bu: - LLM'nin yaratıcılığını 1,6-2 kat artırır - insan derecelendirmeli çeşitliliği %25,7 artırıyor - Yeniden eğitim olmadan ince ayar edilmiş modeli beats - uyumdan sonra LLM'nin kaybettiği yaratıcılığın %66,8'ini geri kazandırır Eğitim sonrası hizalama yöntemleri, örneğin RLHF, LLM'leri faydalı ve güvenli hale getirmek için tasarlanmıştır. Ancak, bu yöntemler istemeden çıkış çeşitliliğinde önemli bir düşüşe (mod çöküşü denir) neden olur. Bir LLM moda çöktüğünde, diğer çıktılara göre dar bir tahmin edilebilir veya stereotipik yanıt setini tercih etmeye başlar. Bunun nedeni, LLM'yi eğitmek için kullanılan insan tercih verilerinin tipik bir yanlılık adı verilen gizli bir kusura sahip olmasıdır. Bu nasıl gerçekleşir: - Annotatörler, bir LLM'den farklı yanıtları değerlendirir ve daha sonra LLM, bu insan tercihlerini taklit etmek için ödül modeli kullanılarak eğitilir. - Ancak, annotatörler doğal olarak daha tanıdık, kolay okunabilir ve öngörülebilir cevapları tercih ederler. Bu tipik bir önyargıdır. Yani yeni, yaratıcı bir cevap en az onun kadar iyi olsa bile, insanın tercihi genellikle ortak olana yönelir. Bunun sonucunda, ödül modeli, orijinal (önceden hizalanmış) modelin zaten olası olarak gördüğü yanıtları artırır. Bu, LLM'nin olasılık dağılımını agresif bir şekilde keskinleştirir ve modelin yaratıcı çıktısını bir veya iki baskın, son derece öngörülebilir yanıta indirir. Bununla birlikte, bu geri dönüşü olmayan bir etki değil ve LLM'nin hizalandıktan sonra hâlâ iki kişiliği var: - Ön eğitim sırasında zengin olanakları öğrenen orijinal model. - Güvenliğe odaklanan, hizalama sonrası model....