Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
mówienie, że deepseek zbudował moe na bazie mixtral to nonsens, dokument deepseek moe ukazał się zaledwie 3 dni po opublikowaniu dokumentu mixtral na arxiv
ponadto dokument mixtral nie zawiera dosłownie żadnych szczegółów dotyczących treningu, więc "udostępniliśmy wszystko, co było potrzebne do odbudowy tego rodzaju architektury" jest również fałszywe, dokument mówi tylko "używamy architektury google gshard z prostszym routowaniem i moe na każdej warstwie" i nie zawiera szczegółów dotyczących danych, hiperparametrów, tokenów treningowych, ablacj itp..
architektura, którą wykorzystuje deepseek moe, jest w rzeczywistości inna niż gshard i bardziej rzadka (deepseek moe nawet nie cytuje mixtral w dokumencie, ale gshard)
nie mówię, że mixtral nie miał wpływu na moe, ale to, co zostało powiedziane w tym wywiadzie, jest trochę przepisaniem narracji, aby powiedzieć "ale spójrz, Chiny/deepseek też kopiują mistral!"

Najlepsze
Ranking
Ulubione
