Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
dizer que a deepseek construiu moe em cima da mixtral é um absurdo, o artigo sobre deepseek moe saiu apenas 3 dias depois do artigo da mixtral ser postado no arxiv
além disso, o artigo da mixtral não tem literalmente nenhum detalhe sobre o treinamento, então "nós liberamos tudo que era necessário para reconstruir esse tipo de arquitetura" também é falso, o artigo apenas diz "usamos a arquitetura google gshard com roteamento mais simples e moe em cada camada" e sem detalhes sobre dados, hiperparâmetros, tokens de treinamento, ablações, etc..
a arquitetura que a deepseek moe usa é na verdade diferente da gshard e mais esparsa (a deepseek moe nem cita a mixtral no artigo, mas sim a gshard)
não estou dizendo que a mixtral não teve um impacto no moe, mas o que é dito nesta entrevista é um pouco uma reescrita da narrativa para dizer "mas olhem, a china/deepseek também está copiando a mistral!"

Top
Classificação
Favoritos
