Los 26 mejores trabajos esenciales (+5 recursos adicionales) para Mastering LLMs y Transformers Esta lista conecta los cimientos de los Transformers con el razonamiento, el MoE y el cambio agético Orden de lectura recomendada 1. La atención es todo lo que necesitas (Vaswani et al., 2017) > El artículo original de Transformer. Cubre la autoatención, > atención multicabezal y la estructura codificador-decodificador > (aunque la mayoría de los LLMs modernos solo usan decodificador.) 2. El transformador ilustrado (Jay Alammar, 2018) > Gran generador de intuición para entender > atención y flujo tensorial antes de sumergirse en las implementaciones 3. BERT: Preentrenamiento de transformadores bidireccionales profundos (Devlin et al., 2018) > Fundamentos del lado del codificador, modelado de lenguaje enmascarado, > y aprendizaje de representación que aún moldean las arquitecturas modernas 4. Los modelos de lenguaje son pocos aprendices (GPT-3) (Brown et al., 2020) > Estableció el aprendizaje en contexto como una experiencia real > capacidad y cambió la comprensión de las indicaciones 5. Leyes de escalado para modelos de lenguaje neuronal (Kaplan et al., 2020) > Primer marco empírico limpio de escalado para parámetros, datos y computación > Lee junto a Chinchilla para entender por qué la mayoría de las modelos estaban poco entrenadas 6. Entrenamiento de modelos de lenguaje grandes óptimos para el cálculo (chinchilla) (Hoffmann et al., 2022) > Demostró que el recuento de fichas importa más que...