26 Makalah Penting Teratas (+5 Sumber Daya Bonus) untuk Menguasai LLM dan Transformer Daftar ini menjembatani fondasi Transformer dengan penalaran, MoE, dan pergeseran agen Urutan Bacaan yang Direkomendasikan 1. Perhatian Adalah Yang Anda Butuhkan (Vaswani et al., 2017) > Kertas Transformer asli. Mencakup perhatian diri, > perhatian multi-kepala, dan struktur encoder-decoder > (meskipun sebagian besar LLM modern hanya dekoder.) 2. Transformer Bergambar (Jay Alammar, 2018) > Pembangun intuisi yang hebat untuk pemahaman > perhatian dan aliran tensor sebelum terjun ke implementasi 3. BERT: Pra-pelatihan Transformator Dua Arah Dalam (Devlin et al., 2018) > Dasar-dasar sisi encoder, pemodelan bahasa bertopeng, > dan pembelajaran representasi yang masih membentuk arsitektur modern 4. Model Bahasa adalah Pembelajar Sedikit-Tembakan (GPT-3) (Brown et al., 2020) > Menetapkan pembelajaran dalam konteks sebagai > kemampuan dan mengubah cara mendorong dipahami 5. Hukum Penskalaan untuk Model Bahasa Saraf (Kaplan et al., 2020) > Kerangka kerja penskalaan empiris bersih pertama untuk parameter, data, dan komputasi > Baca bersama Chinchilla untuk memahami mengapa sebagian besar model kurang terlatih 6. Pelatihan Model Bahasa Besar Komputasi Optimal (Chinchilla) (Hoffmann et al., 2022) > Menunjukkan bahwa jumlah token lebih penting daripada...