热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
掌握 LLM 和 Transformer 的 26 篇必读论文(+5 个额外资源)
此列表将 Transformer 基础与推理、MoE 和代理转变相结合
推荐阅读顺序
1. Attention Is All You Need (Vaswani et al., 2017)
> 原始的 Transformer 论文。涵盖自注意力、
> 多头注意力和编码器-解码器结构
> (尽管大多数现代 LLM 仅为解码器。)
2. The Illustrated Transformer (Jay Alammar, 2018)
> 理解注意力和张量流的绝佳直观工具,
> 在深入实现之前进行学习
3. BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018)
> 编码器侧的基础知识、掩码语言建模,
> 以及仍然影响现代架构的表示学习
4. Language Models are Few-Shot Learners (GPT-3) (Brown et al., 2020)
> 确立了上下文学习作为一种真实的
> 能力,并改变了对提示的理解
5. Scaling Laws for Neural Language Models (Kaplan et al., 2020)
> 首个干净的经验缩放框架,涵盖参数、数据和计算
> 与 Chinchilla 一起阅读,以理解为什么大多数模型未经过训练
6. Training Compute-Optimal Large Language Models (Chinchilla) (Hoffmann et al., 2022)
> 证明了在固定计算预算下,
> 令牌数量比参数数量更重要
...
热门
排行
收藏
