Cel mai nou model din seria Mamba a sosit în sfârșit 🐍 Modelele hibride au devenit din ce în ce mai populare, crescând importanța proiectării următoarei generații de modele liniare. Am introdus mai multe idei centrate pe SSM pentru a crește semnificativ capacitățile de modelare ale Mamba-2 fără a compromite viteza. Modelul rezultat, Mamba-3, are câștiguri de performanță vizibile față de cele mai populare modele liniare anterioare (precum Mamba-2 și Gated DeltaNet) la toate dimensiunile. Acesta este primul Mamba condus de elevi: toate meritele pentru @aakash_lahoti @kevinyli_ @_berlinchen @caitWW9 și, desigur, @tri_dao!