Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Los 26 mejores trabajos esenciales (+5 recursos adicionales)
para Mastering LLMs y Transformers
Esta lista conecta los cimientos de los Transformers
con el razonamiento, el MoE y el cambio agético
Orden de lectura recomendada
1. La atención es todo lo que necesitas (Vaswani et al., 2017)
> El artículo original de Transformer. Cubre la autoatención,
> atención multicabezal y la estructura codificador-decodificador
> (aunque la mayoría de los LLMs modernos solo usan decodificador.)
2. El transformador ilustrado (Jay Alammar, 2018)
> Gran generador de intuición para entender
> atención y flujo tensorial antes de sumergirse en las implementaciones
3. BERT: Preentrenamiento de transformadores bidireccionales profundos (Devlin et al., 2018)
> Fundamentos del lado del codificador, modelado de lenguaje enmascarado,
> y aprendizaje de representación que aún moldean las arquitecturas modernas
4. Los modelos de lenguaje son pocos aprendices (GPT-3) (Brown et al., 2020)
> Estableció el aprendizaje en contexto como una experiencia real
> capacidad y cambió la comprensión de las indicaciones
5. Leyes de escalado para modelos de lenguaje neuronal (Kaplan et al., 2020)
> Primer marco empírico limpio de escalado para parámetros, datos y computación
> Lee junto a Chinchilla para entender por qué la mayoría de las modelos estaban poco entrenadas
6. Entrenamiento de modelos de lenguaje grandes óptimos para el cálculo (chinchilla) (Hoffmann et al., 2022)
> Demostró que el recuento de fichas importa más que...
Populares
Ranking
Favoritas
