SSMは、長いコンテキストで効率的な言語モデリングを約束しましたが、これまでのところ、多くの設定でTransformerと比較してパフォーマンスが低いようです。私たちの新しい研究は、これはSSMの問題ではなく、現在のSSMの使用方法の問題であることを示唆しています。 アルクシブ: 🧵