Top 26 de lucrări esențiale (+5 resurse bonus) pentru masterizarea LLM-urilor și transformatoarelor Această listă face legătura între fundațiile Transformerilor cu raționamentul, MoE și schimbarea agentică Ordinea lecturii recomandate 1. Atenția este tot ce ai nevoie (Vaswani et al., 2017) > Lucrarea originală Transformer. Acoperă atenția de sine, > atenție multi-head și structura encoder-decoder > (deși majoritatea LLM-urilor moderne sunt doar decodoare.) 2. Transformatorul ilustrat (Jay Alammar, 2018) > Un excelent constructor de intuiții pentru înțelegere > atenție și fluxul tensorial înainte de a intra în implementări 3. BERT: Pre-instruire a transformatoarelor bidirecționale adânci (Devlin et al., 2018) > Fundamentele de pe partea Encoder, modelarea limbajului mascat, > și învățarea reprezentării care încă modelează arhitecturile moderne 4. Modelele lingvistice sunt puține cursanți (GPT-3) (Brown et al., 2020) > A stabilit învățarea în context ca pe o formă reală > și a schimbat modul în care se înțelege prompting-ul 5. Legile de scalare pentru modelele de limbaj neuronal (Kaplan et al., 2020) > Primul cadru curat de scalare empirică pentru parametri, date și calcul > Citește alături de Chinchilla pentru a înțelege de ce majoritatea modelelor erau subantrenate 6. Antrenarea modelelor de limbaj mari optime pentru calcul (chinchilla) (Hoffmann et al., 2022) > A demonstrat că numărul de jetoane contează mai mult decât...