Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Salah satu hal yang sangat membingungkan tentang model saat ini: bagaimana mendamaikan fakta bahwa mereka melakukannya dengan sangat baik pada eval.
Dan Anda melihat eval dan Anda berkata, 'Itu adalah eval yang cukup sulit.'
Tetapi dampak ekonomi tampaknya tertinggal secara dramatis.
Ada penjelasan [yang mungkin]. Kembali ketika orang-orang melakukan pra-pelatihan, pertanyaan tentang data apa yang harus dilatih dijawab, karena jawaban itu adalah segalanya. Jadi Anda tidak perlu berpikir apakah itu akan menjadi data ini atau data itu.
Ketika orang melakukan pelatihan RL, mereka berkata, 'Oke, kami ingin memiliki pelatihan RL semacam ini untuk hal ini dan pelatihan RL semacam itu untuk hal itu.'
Anda berkata, 'Hei, saya ingin model kami melakukannya dengan sangat baik ketika kami merilisnya. Saya ingin eval terlihat hebat. Apa yang akan menjadi pelatihan RL yang dapat membantu dalam tugas ini?'
Jika Anda menggabungkan ini dengan generalisasi model yang sebenarnya tidak memadai, itu berpotensi menjelaskan banyak dari apa yang kita lihat, keterputusan antara kinerja eval dan kinerja dunia nyata yang sebenarnya"
Teratas
Peringkat
Favorit

