掌握 LLM 和 Transformer 的 26 篇必读论文(+5 个额外资源) 此列表将 Transformer 基础与推理、MoE 和代理转变相结合 推荐阅读顺序 1. Attention Is All You Need (Vaswani et al., 2017) > 原始的 Transformer 论文。涵盖自注意力、 > 多头注意力和编码器-解码器结构 > (尽管大多数现代 LLM 仅为解码器。) 2. The Illustrated Transformer (Jay Alammar, 2018) > 理解注意力和张量流的绝佳直观工具, > 在深入实现之前进行学习 3. BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018) > 编码器侧的基础知识、掩码语言建模, > 以及仍然影响现代架构的表示学习 4. Language Models are Few-Shot Learners (GPT-3) (Brown et al., 2020) > 确立了上下文学习作为一种真实的 > 能力,并改变了对提示的理解 5. Scaling Laws for Neural Language Models (Kaplan et al., 2020) > 首个干净的经验缩放框架,涵盖参数、数据和计算 > 与 Chinchilla 一起阅读,以理解为什么大多数模型未经过训练 6. Training Compute-Optimal Large Language Models (Chinchilla) (Hoffmann et al., 2022) > 证明了在固定计算预算下, > 令牌数量比参数数量更重要 ...