掌握 LLM 和 Transformer 的 26 篇必讀論文 (+5 額外資源) 這份清單將 Transformer 的基礎與推理、MoE 和代理轉變相連接 推薦閱讀順序 1. Attention Is All You Need (Vaswani et al., 2017) > 原始的 Transformer 論文。涵蓋自注意力、 > 多頭注意力和編碼器-解碼器結構 > (儘管大多數現代 LLM 僅為解碼器)。 2. The Illustrated Transformer (Jay Alammar, 2018) > 理解注意力和張量流的絕佳直覺建構, > 在深入實現之前。 3. BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018) > 編碼器端的基本原理、掩蔽語言建模, > 以及仍然塑造現代架構的表示學習。 4. Language Models are Few-Shot Learners (GPT-3) (Brown et al., 2020) > 確立了上下文學習作為一種真正的 > 能力,並改變了對提示的理解。 5. Scaling Laws for Neural Language Models (Kaplan et al., 2020) > 第一個針對參數、數據和計算的乾淨實證擴展框架。 > 與 Chinchilla 一起閱讀,以了解為何大多數模型未經充分訓練。 6. Training Compute-Optimal Large Language Models (Chinchilla) (Hoffmann et al., 2022) > 證明了在固定計算預算下, > 令牌數量比參數數量更重要。 ...