# Perché addestrare MoEs è così difficile recentemente, mi sono trovato a voler un piccolo repository di addestramento focalizzato sulla ricerca su cui poter fare esperimenti rapidi e facili. questi esperimenti spaziano dal provare nuove architetture di attenzione (MLA, SWA, NSA, KDA - tutte pluggabili) all'addestramento multi-precisione fino ai più recenti setup multi ottimizzatore con ottimizzatori "nuovi". ho provato i 3 principali contendenti (Nemo, Megatron e Torchtitan) ma per molti e vari motivi non si adattavano affatto ai miei scopi e sono stati tutti piuttosto dolorosi da configurare, usare e far funzionare in modo stabile. Mi è mancato ancora una volta il mio strumento di google e riscrivere il mio stack di addestramento di produzione per questo scopo (che è su misura per il monitoraggio e la stabilità delle grandi infrastrutture) sembrava anche una cattiva uso del tempo e avrebbe reso sia il vecchio che il nuovo repository peggiori. Questo mi ha fatto però riflettere, perché era così difficile addestrare MoEs di qualità 'frontier' 'piccole' (diciamo sotto i 20B di parametri totali)? perché il repository/lib che volevo non esisteva già? Dopo averci pensato un po', la maggior parte delle sfide che sono riuscito a trovare si riduceva a 3 cose diverse: - flops / efficienza dei flop - bilanciamento del carico / stabilità del router - qualità e quantità dei dati Flops addestrare modelli densi è piuttosto semplice al giorno d'oggi. le dinamiche di addestramento sono per lo più accoppiate, e se hai abbastanza parametri nell'architettura, il modello imparerà praticamente nonostante i tuoi molti errori (questo mi ha morso nel sedere più di una volta). [DeepSeek-style ultra-sparse]( MoEs sono diversi perché le tue dinamiche di addestramento sono in qualche modo decouple. Solo una parte dei tuoi MLP sono attivi per un dato token, e man mano che l'addestramento procede, gli esperti attivi cambiano ed evolvono nel tempo. questo è ciò che rende l'addestramento multi-epoca e la riformulazione dei dati così efficaci per i MoEs (soprattutto quelli più grandi). Ottieni grandi guadagni di efficienza in inferenza e piccoli...