Nejnovější model ze série Mamba je konečně tady 🐍 Hybridní modely se staly stále populárnějšími, což zvyšuje důležitost navrhování další generace lineárních modelů. Představili jsme několik nápadů zaměřených na SSM, abychom výrazně zvýšili modelovací schopnosti Mamba-2, aniž bychom snižovali rychlost. Výsledný model Mamba-3 vykazuje znatelné zlepšení výkonu oproti nejpopulárnějším předchozím lineárním modelům (jako Mamba-2 a Gated DeltaNet) ve všech velikostech. Toto je první Mamba, kterou vedl student: veškerá pochvala patří @aakash_lahoti @kevinyli_ @_berlinchen @caitWW9 a samozřejmě @tri_dao!