Os 26 Melhores Trabalhos Essenciais (+5 Recursos Bônus) para Masterização de LLMs e Transformers Esta lista faz a ponte entre as fundações do Transformer com o raciocínio, MoE e mudança agential Ordem de leitura recomendada 1. Atenção é tudo o que você precisa (Vaswani et al., 2017) > O artigo original do Transformer. Cobre a autoatenção, > atenção multi-cabeças e a estrutura codificador-decodificador > (mesmo que a maioria dos LLMs modernos seja apenas decodificador.) 2. O Transformador Ilustrado (Jay Alammar, 2018) > Ótimo construtor de intuição para entender > atenção e fluxo tensorial antes de mergulhar nas implementações 3. BERT: Pré-treinamento de transformadores bidirecionais profundos (Devlin et al., 2018) > Fundamentos do lado do codificador, modelagem de linguagem mascarada, > e aprendizagem representativa que ainda moldam as arquiteturas modernas 4. Modelos de Linguagem são Aprendizes de Poucos Tiros (GPT-3) (Brown et al., 2020) > Estabelecimento do aprendizado em contexto como algo real > capacidade e mudou a forma como o incentivo é entendido 5. Leis de Escalabilidade para Modelos de Linguagem Neural (Kaplan et al., 2020) > Primeiro framework empírico limpo de escalonamento para parâmetros, dados e computação > Leia junto com Chinchilla para entender por que a maioria das modelos era pouco treinada 6. Treinamento de Modelos de Linguagem Computacional Ótimos (Chinchilla) (Hoffmann et al., 2022) > Demonstrou que a contagem de tokens importa mais do que...