SSM slibovaly efektivní jazykové modelování pro dlouhý kontext, ale zatím se zdá, že ve srovnání s Transformers v mnoha nastaveních zaostávají. Naše nová práce naznačuje, že to není problém s jednotnými mechanismy, ale s tím, jak je v současné době používáme.
Arxiv:
🧵