Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Väittää, että Deepseek rakensi Moe:n Mixtralin päälle, on hölynpölyä, Deepseek Moe -artikkeli julkaistiin vain kolme päivää sen jälkeen, kun Mixtral-artikkeli julkaistiin Arxivissa.
Lisäksi Mixtral-artikkelissa ei ole lainkaan yksityiskohtia koulutuksesta, joten "Julkaisimme kaiken, mitä tarvittiin tämän tyyppisen arkkitehtuurin uudelleenrakentamiseen" on myös väärin, artikkelissa sanotaan vain "Käytämme Google GShard Archia yksinkertaisemmalla reitityksellä ja Moe:lla jokaisella kerroksella" eikä yksityiskohtia datasta, hyperparametreista, koulutustokeneista, ablaatioista jne.
Deepseek moe:n käyttämä arkkitehtuuri on itse asiassa erilaista kuin GShardissa ja harvempi (Deepseek Moe ei edes mainitse Mixtralia artikkelissa, vaan GSHARDia)
En sano, etteikö Mixtralilla olisi ollut vaikutusta Moe:hen, mutta tässä haastattelussa sanotaan hieman kertomuksen uudelleenkirjoittamista niin, että sanotaan "Mutta katso, Kiina/Deepseek kopioi myös Mistralia!"

Johtavat
Rankkaus
Suosikit
