Hay quizá ~20-25 artículos que importan. Si implementas eso, habrás capturado el ~90% de la alfa detrás de los LLMs modernos. Todo lo demás es adorno. ¿Quieres esa lista? No busques más... Los 26 mejores trabajos esenciales (+5 recursos adicionales) para Mastering LLMs y Transformers Esta lista conecta los cimientos de los Transformers con el razonamiento, el MoE y el cambio agético Orden de lectura recomendada 1. La atención es todo lo que necesitas (Vaswani et al., 2017) > El artículo original de Transformer. Cubre la autoatención, > atención multicabezal y la estructura codificador-decodificador > (aunque la mayoría de los LLMs modernos solo usan decodificador.) 2. El transformador ilustrado (Jay Alammar, 2018) > Gran generador de intuición para entender > atención y flujo tensorial antes de sumergirse en las implementaciones 3. BERT: Preentrenamiento de transformadores bidireccionales profundos (Devlin et al., 2018) > Fundamentos del lado del codificador, modelado de lenguaje enmascarado, > y aprendizaje de representación que aún moldean las arquitecturas modernas 4. Los modelos de lenguaje son pocos aprendices (GPT-3) (Brown et al., 2020) > Estableció el aprendizaje en contexto como una experiencia real...