我真的很喜歡這個研究方向! 很長一段時間以來,我一直在談論SSMs與Transformers之間的「大腦與數據庫」類比。我提到過的一個延伸觀點是,當我們開始考慮構建多組件*系統*而不是單一模型時,權衡會發生變化。 例如,如果有人認同這種直覺,即現代混合模型將SSM作為主要的「類大腦」處理單元,而注意力主要用於「類數據庫」的緩存以幫助精確檢索,那麼我假設或許一個更優化的系統可以是純SSM語言模型結合明確的外部知識數據庫和上下文緩存。這更類似於人類智慧,主要由大腦(SSM)驅動,並輔以外部知識庫(書籍、互聯網)和工具使用。 這篇論文顯示出SSMs在這種互動工具使用的代理模型範疇中,似乎相較於Transformers具有非常有利的表現。很高興看到這種直覺得到了驗證,希望未來能有更多的研究沿著這個方向繼續進行!