Sınır Modelleri için RL'nin Aşırı Verimsizliği 🧵 Sınır modellerinin bir sonraki belirteç tahminiyle eğitilmesinden takviyeli öğrenmeye (RL) geçiş, modelin öğreneceği bilgi biti başına 1.000 ila 1.000.000 kat daha fazla bilgi işlem gerektirir. 1/11