Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Ricercatore di intelligenza artificiale e ingegnere del software, in missione per costruire un cluster di GPU DGX B200
VELOCITÀ INCREDIBILE
eseguendo Claude Code con modelli locali
sui miei GPU a casa
> SGLang che serve MiniMax-M2.1
> su 8x RTX 3090
> nvtop che mostra il carico GPU in tempo reale
> Claude Code genera codice + documenti
> end-2-end sul mio cluster AI
MiniMax-M2.1 è il mio modello preferito
da eseguire localmente al giorno d'oggi
20
un promemoria che, nelle AI a codice chiuso di aziende come OpenAI e Anthropic
on hai alcun controllo su come si comportano i modelli, e possono
> quantizzarlo
> distillarlo
> passare a un checkpoint più economico/debole
> rendere il modello manipolativo
> affinarlo in modi che compromettono la sicurezza o la profondità
> abbassare il suo IQ
> condurre esperimenti su di te e/o sui tuoi dati
> limitare la velocità di output o aumentare i prezzi
> dismettere l'intero modello/versione
> bloccare la tua richiesta per qualsiasi motivo inventato
hanno tutte le leve e sei alla loro mercé
non riceverai nemmeno un changelog
opensource FTW
Compra una GPU

55
I 26 documenti essenziali (+5 risorse bonus)
per padroneggiare LLM e Transformer
Questa lista collega le basi del Transformer
con il ragionamento, MoE e il cambiamento agentico
Ordine di lettura consigliato
1. Attention Is All You Need (Vaswani et al., 2017)
> Il documento originale sui Transformer. Copre l'autoattenzione,
> l'attenzione multi-testa e la struttura encoder-decoder
> (anche se la maggior parte degli LLM moderni sono solo decoder.)
2. The Illustrated Transformer (Jay Alammar, 2018)
> Ottimo costruttore di intuizioni per comprendere
> l'attenzione e il flusso dei tensori prima di immergersi nelle implementazioni
3. BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018)
> Fondamenti lato encoder, modellazione del linguaggio mascherato,
> e apprendimento delle rappresentazioni che ancora plasmano le architetture moderne
4. Language Models are Few-Shot Learners (GPT-3) (Brown et al., 2020)
> Ha stabilito l'apprendimento in contesto come una vera
> capacità e ha cambiato il modo in cui si comprende il prompting
5. Scaling Laws for Neural Language Models (Kaplan et al., 2020)
> Primo framework empirico pulito per la scalabilità di parametri, dati e calcolo
> Leggi insieme a Chinchilla per capire perché la maggior parte dei modelli era sottoaddestrata
6. Training Compute-Optimal Large Language Models (Chinchilla) (Hoffmann et al., 2022)
> Ha dimostrato che il conteggio dei token conta di più rispetto al
> conteggio dei parametri per un budget di calcolo fisso
7. LLaMA: Open and Efficient Foundation Language Models (Touvron et al., 2023)
> Il documento che ha innescato l'era dei pesi aperti
> Ha introdotto default architettonici come RMSNorm, SwiGLU
> e RoPE come prassi standard
8. RoFormer: Rotary Position Embedding (Su et al., 2021)
> Codifica posizionale che è diventata il moderno default per LLM a lungo contesto
9. FlashAttention (Dao et al., 2022)
> Attenzione efficiente in termini di memoria che ha abilitato finestre di contesto lunghe
> e inferenza ad alta capacità ottimizzando l'accesso alla memoria GPU.
10. Retrieval-Augmented Generation (RAG) (Lewis et al., 2020)
> Combina modelli parametrici con fonti di conoscenza esterne
> Fondamentale per sistemi ancorati e aziendali
11. Training Language Models to Follow Instructions with Human Feedback (InstructGPT) (Ouyang et al., 2022)
> Il moderno blueprint post-addestramento e di allineamento
> che i modelli sintonizzati per istruzioni seguono
12. Direct Preference Optimization (DPO) (Rafailov et al., 2023)
> Un'alternativa più semplice e stabile al RLHF basato su PPO
> Allineamento delle preferenze tramite la funzione di perdita
13. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al., 2022)
> Ha dimostrato che il ragionamento può essere evocato tramite il prompting
> da solo e ha gettato le basi per un successivo addestramento focalizzato sul ragionamento
14. ReAct: Reasoning and Acting (Yao et al., 2022 / ICLR 2023)
> La base dei sistemi agentici
> Combina tracce di ragionamento con uso di strumenti e interazione con l'ambiente
15. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (Guo et al., 2025)
> Il documento R1. Ha dimostrato che l'apprendimento rinforzato su larga scala senza
> dati supervisionati può indurre auto-verifica e comportamento di ragionamento strutturato
16. Qwen3 Technical Report (Yang et al., 2025)
> Una panoramica leggera dell'architettura moderna
> Ha introdotto MoE unificato con Modalità di Pensiero e Non-Pensiero
> per scambiare dinamicamente costo e profondità di ragionamento
17. Outrageously Large Neural Networks: Sparsely-Gated Mixture of Experts (Shazeer et al., 2017)
> Il punto di accensione moderno del MoE
> Computazione condizionale su larga scala
18. Switch Transformers (Fedus et al., 2021)
> Routing MoE semplificato utilizzando attivazione di esperti singoli
> Chiave per stabilizzare l'addestramento di trilioni di parametri
19. Mixtral of Experts (Mistral AI, 2024)
> MoE a peso aperto che ha dimostrato che i modelli sparsi possono eguagliare la qualità densa
> mentre funzionano a costo di inferenza di modelli piccoli
20. Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints (Komatsuzaki et al., 2022 / ICLR 2023)
> Tecnica pratica per convertire checkpoint densi in modelli MoE
> Critica per il riutilizzo del calcolo e la scalabilità iterativa
21. The Platonic Representation Hypothesis (Huh et al., 2024)
> Evidenza che i modelli scalati convergono verso rappresentazioni interne condivise
> attraverso le modalità
22. Textbooks Are All You Need (Gunasekar et al., 2023)
> Ha dimostrato che dati sintetici di alta qualità consentono
> a modelli piccoli di superare quelli molto più grandi
23. Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet (Templeton et al., 2024)
> Il più grande balzo nell'interpretabilità meccanicistica
> Decompone le reti neurali in milioni di caratteristiche interpretabili
24. PaLM: Scaling Language Modeling with Pathways (Chowdhery et al., 2022)
> Una lezione magistrale nell'orchestrazione dell'addestramento su larga scala
> attraverso migliaia di acceleratori
25. GLaM: Generalist Language Model (Du et al., 2022)
> Ha convalidato l'economia di scalabilità del MoE con enormi
> parametri totali ma piccoli conteggi di parametri attivi
26. The Smol Training Playbook (Hugging Face, 2025)
> Manuale pratico end-to-end per addestrare modelli di linguaggio in modo efficiente
Materiale bonus
> T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (Raffel et al., 2019)
> Toolformer (Schick et al., 2023)
> GShard (Lepikhin et al., 2020)
> Adaptive Mixtures of Local Experts (Jacobs et al., 1991)
> Hierarchical Mixtures of Experts (Jordan e Jacobs, 1994)
Se comprendi profondamente questi fondamenti; il nucleo del Transformer, le leggi di scalabilità, FlashAttention, l'istruzione di tuning, il ragionamento in stile R1 e il riciclo del MoE, già comprendi gli LLM meglio della maggior parte
È tempo di impegnarsi, buona fortuna ;)

Ahmad29 gen, 19:33
Ci sono forse ~20-25 articoli che contano.
Implementali e avrai catturato ~90% dell'alpha dietro i moderni LLM.
Tutto il resto è guarnizione.
23
Principali
Ranking
Preferiti