zeggen dat deepseek moe bovenop mixtral heeft gebouwd is onzin, het deepseek moe-paper kwam slechts 3 dagen na het mixtral-paper dat op arxiv werd geplaatst ook het mixtral-paper bevat letterlijk geen details over de training, dus "we hebben alles vrijgegeven wat nodig was om dit soort architectuur opnieuw op te bouwen" is ook onjuist, het paper zegt gewoon "we gebruiken google gshard-architectuur met eenvoudigere routering en moe op elke laag" en geen details over data, hyperparameters, trainingstokens, ablaties enz.. de architectuur die deepseek moe gebruikt is eigenlijk anders dan gshard en meer spaarzaam (deepseek moe citeert mixtral zelfs niet in het paper, maar gshard) ik zeg niet dat mixtral geen impact heeft gehad op moe, maar wat in dit interview wordt gezegd is een beetje het herschrijven van het verhaal om te zeggen "maar kijk, china/deepseek kopieert ook mistral!"