Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tvrdit, že Deepseek postavil MoE na Mixtralu, je nesmysl, článek Deepseek Moe vyšel jen 3 dny poté, co byl Mixtral článek zveřejněn na Arxiv
Také článek Mixtral nemá doslova žádné detaily o trénování, takže "vydali jsme skoro všechno, co bylo potřeba k přestavbě tohoto typu architektury" je také nepravda, článek jen říká "používáme Google GSHARD Arch s jednodušším směrováním a MOE každou vrstvu" a žádné detaily o datech, hyperparametrech, trénovacích tokenech, ablacích atd.
Architektura, kterou Deepseek Moe používá, je vlastně jiná než GSHARD a je strohější (Deepseek Moe v článku ani necituje Mixtral, ale GSHARD)
Neříkám, že Mixtral neměl na MoE vliv, ale to, co je řečeno v tomto rozhovoru, je trochu přepisování příběhu a říká "ale podívejte, Čína/Deepseek také kopíruje Mistral!"

Top
Hodnocení
Oblíbené
