Top 26 základních prací (+5 bonusových zdrojů) pro mastering LLM a transformátorů Tento seznam propojuje základy Transformeru s odůvodněním, MoE a agentickou směnou Doporučené pořadí čtení 1. Pozornost je vše, co potřebujete (Vaswani et al., 2017) > Původní článek o Transformerech. Zahrnuje sebepozornost, > vícehlavé pozornosti a struktura enkodér-dekodér > (i když většina moderních LLM je pouze dekodérová.) 2. Ilustrovaný transformátor (Jay Alammar, 2018) > Skvělý nástroj pro porozumění > pozornost a tenzorový tok před tím, než se pustíte do implementací 3. BERT: Předtrénink hlubokých obousměrných transformátorů (Devlin et al., 2018) > Základy na straně encoderu, modelování maskovaného jazyka, > a učení reprezentace, které stále formují moderní architektury 4. Jazykové modely jsou žáci s málo záběry (GPT-3) (Brown et al., 2020) > Ustálení učení v kontextu jako skutečné > schopnosti a změnilo způsob, jakým je vnímáno prompting 5. Škálovací zákony pro neuronové jazykové modely (Kaplan et al., 2020) > První čistý empirický škálovací rámec pro parametry, data a výpočty > Čtěte spolu s Chinchillou, abyste pochopili, proč většina modelek byla nedostatečně vycvičená 6. Trénování výpočetně optimálních velkých jazykových modelů (činčila) (Hoffmann et al., 2022) > Ukázalo, že počet žetonů je důležitější než...