Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Top 26 základních prací (+5 bonusových zdrojů)
pro mastering LLM a transformátorů
Tento seznam propojuje základy Transformeru
s odůvodněním, MoE a agentickou směnou
Doporučené pořadí čtení
1. Pozornost je vše, co potřebujete (Vaswani et al., 2017)
> Původní článek o Transformerech. Zahrnuje sebepozornost,
> vícehlavé pozornosti a struktura enkodér-dekodér
> (i když většina moderních LLM je pouze dekodérová.)
2. Ilustrovaný transformátor (Jay Alammar, 2018)
> Skvělý nástroj pro porozumění
> pozornost a tenzorový tok před tím, než se pustíte do implementací
3. BERT: Předtrénink hlubokých obousměrných transformátorů (Devlin et al., 2018)
> Základy na straně encoderu, modelování maskovaného jazyka,
> a učení reprezentace, které stále formují moderní architektury
4. Jazykové modely jsou žáci s málo záběry (GPT-3) (Brown et al., 2020)
> Ustálení učení v kontextu jako skutečné
> schopnosti a změnilo způsob, jakým je vnímáno prompting
5. Škálovací zákony pro neuronové jazykové modely (Kaplan et al., 2020)
> První čistý empirický škálovací rámec pro parametry, data a výpočty
> Čtěte spolu s Chinchillou, abyste pochopili, proč většina modelek byla nedostatečně vycvičená
6. Trénování výpočetně optimálních velkých jazykových modelů (činčila) (Hoffmann et al., 2022)
> Ukázalo, že počet žetonů je důležitější než...
Top
Hodnocení
Oblíbené
