En İyi 26 Temel Makale (+5 Bonus Kaynak) LLM'ler ve Transformers Mastering için Bu liste, Transformer temellerini birleştirir mantık, MoE ve ajanik kayma ile Önerilen Okuma Sırası 1. İhtiyacınız Olan Tek Dikkat Nedir (Vaswani ve ark., 2017) > Orijinal Transformer makalesi. Kendine dikkat etmeyi kapsar, > çok başlı dikkat ve kodlayıcı-kodlayıcı yapısı > (çoğu modern LLM sadece kod çözücü olsa da.) 2. Resimli Transformer (Jay Alammar, 2018) > Anlamak için harika bir sezgi geliştirici > uygulamaya geçmeden önce dikkat ve tensör akışını 3. BERT: Derin İki Yönlü Transformatörlerin Ön Eğitimi (Devlin ve ark., 2018) > Kodlayıcı tarafı temelleri, maskeli dil modellemesi, > ve temsil öğrenimi modern mimarileri hâlâ şekillendiriyor 4. Dil Modelleri Az Şanslı Öğrenenlerdir (GPT-3) (Brown ve ark., 2020) > Gerçek bir bağlam içi öğrenme > yeteneği ve yönlendirmenin anlaşılma şeklini değiştirdi 5. Sinir Dil Modelleri için Ölçekleme Yasaları (Kaplan ve ark., 2020) > Parametreler, veri ve hesaplama için ilk temiz ampirik ölçeklendirme çerçevesi > Chinchilla ile birlikte okumak, çoğu modelin neden yetersiz eğitimli olduğunu anlamak için 6. Hesaplama-Optimal Büyük Dil Modellerinin Eğitimi (Chinchilla) (Hoffmann ve ark., 2022) > Token sayısının daha önemli olduğunu gösterdi...