Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Top 26 de lucrări esențiale (+5 resurse bonus)
pentru masterizarea LLM-urilor și transformatoarelor
Această listă face legătura între fundațiile Transformerilor
cu raționamentul, MoE și schimbarea agentică
Ordinea lecturii recomandate
1. Atenția este tot ce ai nevoie (Vaswani et al., 2017)
> Lucrarea originală Transformer. Acoperă atenția de sine,
> atenție multi-head și structura encoder-decoder
> (deși majoritatea LLM-urilor moderne sunt doar decodoare.)
2. Transformatorul ilustrat (Jay Alammar, 2018)
> Un excelent constructor de intuiții pentru înțelegere
> atenție și fluxul tensorial înainte de a intra în implementări
3. BERT: Pre-instruire a transformatoarelor bidirecționale adânci (Devlin et al., 2018)
> Fundamentele de pe partea Encoder, modelarea limbajului mascat,
> și învățarea reprezentării care încă modelează arhitecturile moderne
4. Modelele lingvistice sunt puține cursanți (GPT-3) (Brown et al., 2020)
> A stabilit învățarea în context ca pe o formă reală
> și a schimbat modul în care se înțelege prompting-ul
5. Legile de scalare pentru modelele de limbaj neuronal (Kaplan et al., 2020)
> Primul cadru curat de scalare empirică pentru parametri, date și calcul
> Citește alături de Chinchilla pentru a înțelege de ce majoritatea modelelor erau subantrenate
6. Antrenarea modelelor de limbaj mari optime pentru calcul (chinchilla) (Hoffmann et al., 2022)
> A demonstrat că numărul de jetoane contează mai mult decât...
Limită superioară
Clasament
Favorite
