Mendengarkan ini ditambah posting pemikiran ai Gavin. Dia tampaknya sangat percaya diri dalam pra-pelatihan hukum penskalaan yang dipegang dan saya hanya... tidak begitu yakin? Argumennya sangat terfokus pada kemajuan dalam komputasi mendorong pra-pelatihan, tetapi, secara definisi, perlu ada peningkatan data yang sepadan untuk menskalakan, bukan? Karena kita semua tahu baris Ilya yang terkenal tentang data pra-pelatihan, pertanyaan saya tentu saja, dari mana data ini berasal? Sepertinya orang-orang menunjuk pada gagasan data sintetis yang diumpankan kembali ke pra-pelatihan, tetapi ide itu tidak pernah benar-benar cocok dengan saya. Saya telah memegang pengertian intuitif ini bahwa model yang membuat datanya sendiri untuk dilatih sebelumnya harus mengarah pada ouroboros yang berantakan dari sistem yang tidak dapat maju. Ini belajar secara terpisah, tidak terpapar data baru dari pembuat konten yang berbeda. TAPI, saya belum benar-benar membaca makalah apa pun tentang manfaat atau keterbatasan model pra-pelatihan pada data sinergis yang dihasilkan sendiri. Adakah orang lain yang memiliki pemikiran dan/atau penelitian ini untuk ditunjukkan? Dan akan mencatat ini secara khusus untuk pra-pelatihan, bukan SFT, pasca-pelatihan, dll.