Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
dire che deepseek ha costruito moe sopra mixtral è una sciocchezza, il documento di deepseek moe è uscito solo 3 giorni dopo che il documento di mixtral è stato pubblicato su arxiv
inoltre, il documento di mixtral non ha letteralmente alcun dettaglio sul training, quindi "abbiamo rilasciato tutto ciò che era necessario per ricostruire questo tipo di architettura" è anche falso, il documento dice solo "utilizziamo l'architettura google gshard con routing più semplice e moe in ogni layer" e nessun dettaglio su dati, iperparametri, token di training, ablation ecc..
l'architettura che deepseek moe utilizza è in realtà diversa da gshard e più sparsa (deepseek moe non cita nemmeno mixtral nel documento, ma gshard)
non dico che mixtral non abbia avuto un impatto su moe, ma ciò che viene detto in questa intervista è un po' una riscrittura della narrativa per dire "ma guarda, china/deepseek sta copiando anche mistral!"

Principali
Ranking
Preferiti
