Top 26 niezbędnych prac (+5 materiałów bonusowych) na temat opanowania LLM-ów i Transformerów Ta lista łączy podstawy Transformera z rozumowaniem, MoE i agentowym przesunięciem Zalecana kolejność czytania 1. Attention Is All You Need (Vaswani et al., 2017) > Oryginalny artykuł o Transformerze. Zawiera samouważność, > wielogłową uwagę i strukturę encoder-decoder > (chociaż większość nowoczesnych LLM-ów to tylko dekodery.) 2. The Illustrated Transformer (Jay Alammar, 2018) > Świetne narzędzie do budowania intuicji w zrozumieniu > uwagi i przepływu tensorów przed zanurzeniem się w implementacje 3. BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018) > Podstawy po stronie enkodera, modelowanie języka z maskowaniem, > oraz uczenie reprezentacji, które wciąż kształtują nowoczesne architektury 4. Language Models are Few-Shot Learners (GPT-3) (Brown et al., 2020) > Ustanowiono uczenie w kontekście jako prawdziwą > zdolność i zmieniono sposób rozumienia podpowiedzi 5. Scaling Laws for Neural Language Models (Kaplan et al., 2020) > Pierwsza czysta empiryczna ramka skalowania dla parametrów, danych i obliczeń > Czytaj razem z Chinchilla, aby zrozumieć, dlaczego większość modeli była niedotrenowana 6. Training Compute-Optimal Large Language Models (Chinchilla) (Hoffmann et al., 2022) > Udowodniono, że liczba tokenów ma większe znaczenie niż...