Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Decir que Deepseek construyó MoE sobre Mixtral es una tontería, el artículo de Deepseek Moe salió solo 3 días después de que se publicara el artículo de Mixtral en Arxiv
Además, el artículo mixtral literalmente no tiene detalles sobre el entrenamiento, así que "publicamos prácticamente todo lo necesario para reconstruir este tipo de arquitectura" también es falso, el artículo solo dice "usamos Google GShard Arch con un enrutamiento más simple y MOE en cada capa" y no hay detalles sobre datos, hiperparámetros, tokens de entrenamiento, ablaciones, etc.
La arquitectura que usa Deepseek Moe es en realidad diferente de GShard y más escasa (Deepseek Moe ni siquiera cita mixtral en el artículo, sino GShard)
No digo que mixtral no tuviera impacto en Moe, pero lo que se dice en esta entrevista es una especie de reescritura de la narrativa para decir "¡pero mirad, China/deepseek también está copiando a Mistral!"

Populares
Ranking
Favoritas
