De 26 viktigaste artiklarna (+5 bonusresurser) för att bemästra LLM:er och transformatorer Denna lista binder ihop Transformer-grunderna med resonemanget, MoE och agentisk förändring Rekommenderad läsordning 1. Uppmärksamhet är allt du behöver (Vaswani et al., 2017) > Den ursprungliga Transformer-artikeln. Täcker självuppmärksamhet, > multi-head attention och encoder-decoder-strukturen > (även om de flesta moderna LLM:er endast är dekodare.) 2. Den illustrerade transformatorn (Jay Alammar, 2018) > Utmärkt intuitionsbyggare för förståelse > uppmärksamhet och tensorflöde innan du går in på implementationer 3. BERT: Förutbildning av djupa tvåvägstransformatorer (Devlin et al., 2018) > Encoder-sidans grunder, modellering av maskerat språk, > och representationslärande som fortfarande formar moderna arkitekturer 4. Språkmodeller är få-skott-lärande (GPT-3) (Brown et al., 2020) > Etablerat in-context learning som en verklig > förmåga och förändrade hur prompting förstås 5. Skalningslagar för neurala språkmodeller (Kaplan et al., 2020) > Första rena empiriska skalningsramverket för parametrar, data och beräkning > Läs tillsammans med Chinchilla för att förstå varför de flesta modeller var underutbildade 6. Träning av beräkningsoptimala stora språkmodeller (Chinchilla) (Hoffmann et al., 2022) > Visade att tokenantal spelar större roll än...