Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
26 Makalah Penting Teratas (+5 Sumber Daya Bonus)
untuk Menguasai LLM dan Transformer
Daftar ini menjembatani fondasi Transformer
dengan penalaran, MoE, dan pergeseran agen
Urutan Bacaan yang Direkomendasikan
1. Perhatian Adalah Yang Anda Butuhkan (Vaswani et al., 2017)
> Kertas Transformer asli. Mencakup perhatian diri,
> perhatian multi-kepala, dan struktur encoder-decoder
> (meskipun sebagian besar LLM modern hanya dekoder.)
2. Transformer Bergambar (Jay Alammar, 2018)
> Pembangun intuisi yang hebat untuk pemahaman
> perhatian dan aliran tensor sebelum terjun ke implementasi
3. BERT: Pra-pelatihan Transformator Dua Arah Dalam (Devlin et al., 2018)
> Dasar-dasar sisi encoder, pemodelan bahasa bertopeng,
> dan pembelajaran representasi yang masih membentuk arsitektur modern
4. Model Bahasa adalah Pembelajar Sedikit-Tembakan (GPT-3) (Brown et al., 2020)
> Menetapkan pembelajaran dalam konteks sebagai
> kemampuan dan mengubah cara mendorong dipahami
5. Hukum Penskalaan untuk Model Bahasa Saraf (Kaplan et al., 2020)
> Kerangka kerja penskalaan empiris bersih pertama untuk parameter, data, dan komputasi
> Baca bersama Chinchilla untuk memahami mengapa sebagian besar model kurang terlatih
6. Pelatihan Model Bahasa Besar Komputasi Optimal (Chinchilla) (Hoffmann et al., 2022)
> Menunjukkan bahwa jumlah token lebih penting daripada...
Teratas
Peringkat
Favorit
