Dizer que o Deepseek construiu MoE sobre o Mixtral é um absurdo, o artigo do Deepseek Moe foi lançado apenas 3 dias depois que o artigo do Mixtral foi publicado no Arxiv Além disso, o artigo do mixtral não tem absolutamente nenhum detalhe sobre o treinamento, então "lançamos praticamente tudo que era necessário para reconstruir esse tipo de arquitetura" também é falso, o artigo apenas diz "usamos o Google GShard Arch com roteamento mais simples e MOE em cada camada" e nenhum detalhe sobre dados, hiperparâmetros, tokens de treinamento, ablações etc. A arquitetura que o Deepseek Moe usa é na verdade diferente do GShard e mais esparsa (o Deepseek Moe nem cita o Mixtral no artigo, mas o GShard) Não estou dizendo que o mixtral não teve impacto no Moe, mas o que é dito nesta entrevista é um pouco reescrevendo a narrativa para dizer "mas olha, a China/Deepseek também está copiando o Mistral!"