Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Top 26 niezbędnych prac (+5 materiałów bonusowych)
na temat opanowania LLM-ów i Transformerów
Ta lista łączy podstawy Transformera
z rozumowaniem, MoE i agentowym przesunięciem
Zalecana kolejność czytania
1. Attention Is All You Need (Vaswani et al., 2017)
> Oryginalny artykuł o Transformerze. Zawiera samouważność,
> wielogłową uwagę i strukturę encoder-decoder
> (chociaż większość nowoczesnych LLM-ów to tylko dekodery.)
2. The Illustrated Transformer (Jay Alammar, 2018)
> Świetne narzędzie do budowania intuicji w zrozumieniu
> uwagi i przepływu tensorów przed zanurzeniem się w implementacje
3. BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018)
> Podstawy po stronie enkodera, modelowanie języka z maskowaniem,
> oraz uczenie reprezentacji, które wciąż kształtują nowoczesne architektury
4. Language Models are Few-Shot Learners (GPT-3) (Brown et al., 2020)
> Ustanowiono uczenie w kontekście jako prawdziwą
> zdolność i zmieniono sposób rozumienia podpowiedzi
5. Scaling Laws for Neural Language Models (Kaplan et al., 2020)
> Pierwsza czysta empiryczna ramka skalowania dla parametrów, danych i obliczeń
> Czytaj razem z Chinchilla, aby zrozumieć, dlaczego większość modeli była niedotrenowana
6. Training Compute-Optimal Large Language Models (Chinchilla) (Hoffmann et al., 2022)
> Udowodniono, że liczba tokenów ma większe znaczenie niż...
Najlepsze
Ranking
Ulubione
