Los 26 documentos esenciales (+5 recursos adicionales) para dominar LLMs y Transformers Esta lista conecta los fundamentos de Transformer con el razonamiento, MoE y el cambio agentivo Orden de lectura recomendado 1. Attention Is All You Need (Vaswani et al., 2017) > El documento original de Transformer. Cubre la auto-atención, > la atención multi-cabeza y la estructura de codificador-decodificador > (aunque la mayoría de los LLMs modernos son solo de decodificador.) 2. The Illustrated Transformer (Jay Alammar, 2018) > Gran constructor de intuición para entender > la atención y el flujo de tensores antes de sumergirse en implementaciones 3. BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018) > Fundamentos del lado del codificador, modelado de lenguaje enmascarado, > y aprendizaje de representaciones que aún dan forma a las arquitecturas modernas 4. Language Models are Few-Shot Learners (GPT-3) (Brown et al., 2020) > Estableció el aprendizaje en contexto como una verdadera > capacidad y cambió la forma en que se entiende el prompting 5. Scaling Laws for Neural Language Models (Kaplan et al., 2020) > Primer marco empírico limpio de escalado para parámetros, datos y computación > Leer junto a Chinchilla para entender por qué la mayoría de los modelos estaban subentrenados 6. Training Compute-Optimal Large Language Models (Chinchilla) (Hoffmann et al., 2022) > Demostró que el conteo de tokens importa más que...