SSM-er lovet effektiv språkmodellering for lang kontekst, men ser så langt ut til å underprestere sammenlignet med Transformers i mange settinger. Vårt nye arbeid antyder at dette ikke er et problem med SSM-er, men med hvordan vi bruker dem for øyeblikket.
Arxiv:
🧵