Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
decir que deepseek construyó moe sobre mixtral es una tontería, el documento de deepseek moe salió solo 3 días después de que se publicara el documento de mixtral en arxiv
además, el documento de mixtral no tiene literalmente ningún detalle sobre el entrenamiento, así que "publicamos como todo lo que se necesitaba para reconstruir este tipo de arquitectura" también es falso, el documento solo dice "usamos la arquitectura google gshard con enrutamiento más simple y moe en cada capa" y sin detalles sobre datos, hiperparámetros, tokens de entrenamiento, ablaciones, etc..
la arquitectura que utiliza deepseek moe es en realidad diferente de gshard y más dispersa (deepseek moe ni siquiera cita a mixtral en el documento, sino a gshard)
no digo que mixtral no haya tenido un impacto en moe, pero lo que se dice en esta entrevista es un poco reescribiendo la narrativa para decir "¡pero mira, china/deepseek también está copiando a mistral!"

Parte superior
Clasificación
Favoritos
