dizer que a deepseek construiu moe em cima da mixtral é um absurdo, o artigo sobre deepseek moe saiu apenas 3 dias depois do artigo da mixtral ser postado no arxiv além disso, o artigo da mixtral não tem literalmente nenhum detalhe sobre o treinamento, então "nós liberamos tudo que era necessário para reconstruir esse tipo de arquitetura" também é falso, o artigo apenas diz "usamos a arquitetura google gshard com roteamento mais simples e moe em cada camada" e sem detalhes sobre dados, hiperparâmetros, tokens de treinamento, ablações, etc.. a arquitetura que a deepseek moe usa é na verdade diferente da gshard e mais esparsa (a deepseek moe nem cita a mixtral no artigo, mas sim a gshard) não estou dizendo que a mixtral não teve um impacto no moe, mas o que é dito nesta entrevista é um pouco uma reescrita da narrativa para dizer "mas olhem, a china/deepseek também está copiando a mistral!"