🚨 NVIDIA ha appena rilasciato un progetto per l'addestramento di modelli AI con trilioni di parametri. E spiega silenziosamente come la prossima generazione di modelli scalerà ben oltre gli LLM di oggi. Il documento introduce un sistema per l'addestramento di modelli Mixture-of-Experts (MoE) utilizzando Megatron Core, la stessa famiglia di infrastrutture utilizzata per addestrare alcuni dei modelli più grandi al mondo. L'idea chiave dietro MoE è semplice ma potente: Invece di attivare l'intero modello per ogni token, il sistema instrada ogni token solo a pochi "esperti" specializzati. Ciò significa che puoi scalare enormemente il numero totale di parametri senza aumentare il calcolo per ogni token. In teoria, questo ti dà: • Capacità da trilioni di parametri • Calcolo a livello di modello denso per token • Guadagni di efficienza massivi Ma nella pratica, rompe tutto. L'addestramento dei modelli MoE crea un incubo attraverso tre strati di sistema: Memoria. Comunicazione. Computazione. Ottimizza uno e blocchi gli altri. La soluzione di NVIDIA è essenzialmente un co-design full-stack dell'intero pipeline di addestramento. Hanno introdotto molteplici ottimizzazioni a livello di sistema: ...