熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我真的很喜歡這個研究方向!
很長一段時間以來,我一直在談論SSMs與Transformers之間的「大腦與數據庫」類比。我提到過的一個延伸觀點是,當我們開始考慮構建多組件*系統*而不是單一模型時,權衡會發生變化。
例如,如果有人認同這種直覺,即現代混合模型將SSM作為主要的「類大腦」處理單元,而注意力主要用於「類數據庫」的緩存以幫助精確檢索,那麼我假設或許一個更優化的系統可以是純SSM語言模型結合明確的外部知識數據庫和上下文緩存。這更類似於人類智慧,主要由大腦(SSM)驅動,並輔以外部知識庫(書籍、互聯網)和工具使用。
這篇論文顯示出SSMs在這種互動工具使用的代理模型範疇中,似乎相較於Transformers具有非常有利的表現。很高興看到這種直覺得到了驗證,希望未來能有更多的研究沿著這個方向繼續進行!
熱門
排行
收藏

