26 parasta olennaista esseitä (+5 bonusmateriaalia) LLM:ien ja muuntajien masterointiin Tämä lista yhdistää muuntajien perustukset perustelut, MoE ja agenttisiirtymä Suositeltua lukujärjestystä 1. Huomio on kaikki mitä tarvitset (Vaswani ym., 2017) > Alkuperäinen Transformer-artikkeli. Käsittelee itsekeskeisyyttä, > monipäinen huomio ja enkooderi-dekooderirakenne > (vaikka useimmat nykyaikaiset LLM:t ovat pelkästään dekoodereita.) 2. Kuvitettu muuntaja (Jay Alammar, 2018) > Loistava intuition rakentaja ymmärtämiseen > huomiota ja tensorivirtaa ennen toteutusten käsittelyä 3. BERT: Syvien kaksisuuntaisten muuntajien esikoulutus (Devlin ym., 2018) > Kooderipuolen perusteet, maskattu kielimallinnus, > ja edustuksellinen oppiminen, jotka edelleen muovaavat moderneja arkkitehtuureja 4. Kielimallit ovat vähän oppivia (GPT-3) (Brown ym., 2020) > Vakiintunut kontekstissa oppiminen todellisena > kyvykkyyden ja muutti sitä, miten kehottaminen ymmärretään 5. Skaalauslait hermokielimalleille (Kaplan ym., 2020) > Ensimmäinen puhdas empiirinen skaalauskehys parametreille, datalle ja laskennalle > Lue Chinchillan rinnalla ymmärtääksesi, miksi useimmat mallit olivat alikoulutettuja 6. Laskentaoptimaalisten suurten kielimallien kouluttaminen (Chinchilla) (Hoffmann ym., 2022) > Osoitti, että tokenien määrä on tärkeämpää kuin...