I 26 documenti essenziali (+5 risorse bonus) per padroneggiare LLM e Transformer Questa lista collega le basi del Transformer con il ragionamento, MoE e il cambiamento agentico Ordine di lettura consigliato 1. Attention Is All You Need (Vaswani et al., 2017) > Il documento originale sui Transformer. Copre l'autoattenzione, > l'attenzione multi-testa e la struttura encoder-decoder > (anche se la maggior parte degli LLM moderni sono solo decoder.) 2. The Illustrated Transformer (Jay Alammar, 2018) > Ottimo costruttore di intuizioni per comprendere > l'attenzione e il flusso dei tensori prima di immergersi nelle implementazioni 3. BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018) > Fondamenti lato encoder, modellazione del linguaggio mascherato, > e apprendimento delle rappresentazioni che ancora plasmano le architetture moderne 4. Language Models are Few-Shot Learners (GPT-3) (Brown et al., 2020) > Ha stabilito l'apprendimento in contesto come una vera > capacità e ha cambiato il modo in cui si comprende il prompting 5. Scaling Laws for Neural Language Models (Kaplan et al., 2020) > Primo framework empirico pulito per la scalabilità di parametri, dati e calcolo > Leggi insieme a Chinchilla per capire perché la maggior parte dei modelli era sottoaddestrata 6. Training Compute-Optimal Large Language Models (Chinchilla) (Hoffmann et al., 2022) > Ha dimostrato che il conteggio dei token conta di più rispetto al...