Väittää, että Deepseek rakensi Moe:n Mixtralin päälle, on hölynpölyä, Deepseek Moe -artikkeli julkaistiin vain kolme päivää sen jälkeen, kun Mixtral-artikkeli julkaistiin Arxivissa. Lisäksi Mixtral-artikkelissa ei ole lainkaan yksityiskohtia koulutuksesta, joten "Julkaisimme kaiken, mitä tarvittiin tämän tyyppisen arkkitehtuurin uudelleenrakentamiseen" on myös väärin, artikkelissa sanotaan vain "Käytämme Google GShard Archia yksinkertaisemmalla reitityksellä ja Moe:lla jokaisella kerroksella" eikä yksityiskohtia datasta, hyperparametreista, koulutustokeneista, ablaatioista jne. Deepseek moe:n käyttämä arkkitehtuuri on itse asiassa erilaista kuin GShardissa ja harvempi (Deepseek Moe ei edes mainitse Mixtralia artikkelissa, vaan GSHARDia) En sano, etteikö Mixtralilla olisi ollut vaikutusta Moe:hen, mutta tässä haastattelussa sanotaan hieman kertomuksen uudelleenkirjoittamista niin, että sanotaan "Mutta katso, Kiina/Deepseek kopioi myös Mistralia!"