一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我真的很喜歡這個研究方向！很長一段時間以來，我一直在談論SSMs與Transformers之間的「大腦與數據庫」類比。我提到過的一個延伸觀點是，當我們開始考慮構建多組件*系統*而不是單一模型時，權衡會發生變化。例如，如果有人認同這種直覺，即現代混合模型將SSM作為主要的「類大腦」處理單元，而注意力主要用於「類數據庫」的緩存以幫助精確檢索，那麼我假設或許一個更優化的系統可以是純SSM語言模型結合明確的外部知識數據庫和上下文緩存。這更類似於人類智慧，主要由大腦（SSM）驅動，並輔以外部知識庫（書籍、互聯網）和工具使用。這篇論文顯示出SSMs在這種互動工具使用的代理模型範疇中，似乎相較於Transformers具有非常有利的表現。很高興看到這種直覺得到了驗證，希望未來能有更多的研究沿著這個方向繼續進行！