- Generalisasi hanyalah algoritma. - (Umpan balik) Transformer dapat mempelajari algoritma apa pun melalui GD. Pertanyaan utama: Pada data pelatihan apa? Keyakinan saya: Saat melatih transformator dengan RL pada masalah yang dipilih dengan benar, kemampuan generalisasi akan muncul dan meningkat secara signifikan.