Najnowszy model w serii Mamba jest już tutaj 🐍 Modele hybrydowe stały się coraz bardziej popularne, co podkreśla znaczenie projektowania następnej generacji modeli liniowych. Wprowadziliśmy kilka pomysłów skoncentrowanych na SSM, aby znacznie zwiększyć możliwości modelowania Mamba-2 bez kompromisów w zakresie prędkości. Powstały model Mamba-3 ma zauważalne zyski wydajności w porównaniu do najpopularniejszych wcześniejszych modeli liniowych (takich jak Mamba-2 i Gated DeltaNet) we wszystkich rozmiarach. To pierwszy model Mamba, który był prowadzony przez studentów: wszystkie zasługi dla @aakash_lahoti @kevinyli_ @_berlinchen @caitWW9, a oczywiście także dla @tri_dao!