SSM обіцяли ефективне моделювання мови для тривалого контексту, але поки що, схоже, демонструють низькі результати в порівнянні з Transformers у багатьох налаштуваннях. Наша нова робота говорить про те, що це проблема не з SSM, а з тим, як ми їх зараз використовуємо. Арxiv: 🧵