熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
掌握 LLM 和 Transformer 的 26 篇必讀論文 (+5 額外資源)
這份清單將 Transformer 的基礎與推理、MoE 和代理轉變相連接
推薦閱讀順序
1. Attention Is All You Need (Vaswani et al., 2017)
> 原始的 Transformer 論文。涵蓋自注意力、
> 多頭注意力和編碼器-解碼器結構
> (儘管大多數現代 LLM 僅為解碼器)。
2. The Illustrated Transformer (Jay Alammar, 2018)
> 理解注意力和張量流的絕佳直覺建構,
> 在深入實現之前。
3. BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018)
> 編碼器端的基本原理、掩蔽語言建模,
> 以及仍然塑造現代架構的表示學習。
4. Language Models are Few-Shot Learners (GPT-3) (Brown et al., 2020)
> 確立了上下文學習作為一種真正的
> 能力,並改變了對提示的理解。
5. Scaling Laws for Neural Language Models (Kaplan et al., 2020)
> 第一個針對參數、數據和計算的乾淨實證擴展框架。
> 與 Chinchilla 一起閱讀,以了解為何大多數模型未經充分訓練。
6. Training Compute-Optimal Large Language Models (Chinchilla) (Hoffmann et al., 2022)
> 證明了在固定計算預算下,
> 令牌數量比參數數量更重要。
...
熱門
排行
收藏
