De 26 viktigste artiklene (+5 bonusressurser) for å mestre LLM-er og transformatorer Denne listen bygger bro mellom Transformer-fundamentene med resonnementet, MoE og agentisk skifte Anbefalt leserekkefølge 1. Oppmerksomhet er alt du trenger (Vaswani et al., 2017) > Det originale Transformer-papiret. Dekker selvoppmerksomhet, > oppmerksomhet med flere hoder, og encoder-decoder-strukturen > (selv om de fleste moderne LLM-er kun er dekoderbaserte.) 2. Den illustrerte transformatoren (Jay Alammar, 2018) > Flott intuisjonsbygger for forståelse > oppmerksomhet og tensorflyt før du dykker inn i implementasjoner 3. BERT: Fortrening av dype toveis transformatorer (Devlin et al., 2018) > Encoder-side grunnleggende prinsipper, maskert språkmodellering, > og representasjonslæring som fortsatt former moderne arkitekturer 4. Språkmodeller er få innlærere (GPT-3) (Brown et al., 2020) > Etablert læring i kontekst som en reell > kapasitet og endret hvordan prompting forstås 5. Skaleringslover for nevrale språkmodeller (Kaplan et al., 2020) > Første rene empiriske skaleringsrammeverk for parametere, data og beregning > Les sammen med Chinchilla for å forstå hvorfor de fleste modellene var undertrente 6. Trening av beregningsoptimale store språkmodeller (Chinchilla) (Hoffmann et al., 2022) > Viste at antall tokens betyr mer enn...