SSM обещали эффективное языковое моделирование для длинного контекста, но пока, похоже, они уступают Трансформерам во многих настройках. Наша новая работа предполагает, что это не проблема SSM, а проблема в том, как мы их в настоящее время используем. Arxiv: 🧵