Os 26 Principais Documentos Essenciais (+5 Recursos Bónus) para Dominar LLMs e Transformers Esta lista liga as fundações do Transformer com o raciocínio, MoE e a mudança agentiva Ordem de Leitura Recomendada 1. Attention Is All You Need (Vaswani et al., 2017) > O artigo original do Transformer. Cobre autoatenção, > atenção multi-cabeça e a estrutura encoder-decoder > (mesmo que a maioria dos LLMs modernos sejam apenas decodificadores.) 2. The Illustrated Transformer (Jay Alammar, 2018) > Ótimo construtor de intuição para entender > atenção e fluxo de tensores antes de mergulhar nas implementações 3. BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018) > Fundamentos do lado do encoder, modelagem de linguagem mascarada, > e aprendizado de representação que ainda moldam arquiteturas modernas 4. Language Models are Few-Shot Learners (GPT-3) (Brown et al., 2020) > Estabeleceu o aprendizado em contexto como uma verdadeira > capacidade e mudou a forma como o prompting é entendido 5. Scaling Laws for Neural Language Models (Kaplan et al., 2020) > Primeiro framework empírico limpo de escalonamento para parâmetros, dados e computação > Leia ao lado de Chinchilla para entender por que a maioria dos modelos estava subtreinada 6. Training Compute-Optimal Large Language Models (Chinchilla) (Hoffmann et al., 2022) > Demonstrou que a contagem de tokens importa mais do que...