Možná je tam ~20–25 článků, na kterých záleží. Pokud je implementujete, získáte ~90 % alfa hodnoty moderních LLM. Všechno ostatní je jen ozdoba. Chceš ten seznam? Už se nepodívej... Top 26 základních prací (+5 bonusových zdrojů) pro mastering LLM a transformátorů Tento seznam propojuje základy Transformeru s odůvodněním, MoE a agentickou směnou Doporučené pořadí čtení 1. Pozornost je vše, co potřebujete (Vaswani et al., 2017) > Původní článek o Transformerech. Zahrnuje sebepozornost, > vícehlavé pozornosti a struktura enkodér-dekodér > (i když většina moderních LLM je pouze dekodérová.) 2. Ilustrovaný transformátor (Jay Alammar, 2018) > Skvělý nástroj pro porozumění > pozornost a tenzorový tok před tím, než se pustíte do implementací 3. BERT: Předtrénink hlubokých obousměrných transformátorů (Devlin et al., 2018) > Základy na straně encoderu, modelování maskovaného jazyka, > a učení reprezentace, které stále formují moderní architektury 4. Jazykové modely jsou žáci s málo záběry (GPT-3) (Brown et al., 2020) > Ustálení učení v kontextu jako skutečné...