我真的很喜欢这个研究方向! 很长一段时间以来,我一直在谈论SSMs与Transformers之间的“脑与数据库”类比。我提到过的一个延伸观点是,当我们开始考虑构建多组件*系统*而不是单一模型时,权衡会发生变化。 例如,如果有人认同这样的直觉:现代混合模型将SSM作为主要的“类脑”处理单元,而注意力主要用于“类数据库”的缓存,以帮助精确检索,那么我假设一个更优的系统可能是一个纯SSM语言模型,结合明确的外部知识数据库和上下文缓存。这更类似于人类智能,主要由大脑(一个SSM)驱动,辅以外部知识库(书籍、互联网)和工具使用。 这篇论文显示了相当有趣的结果,SSMs在这种交互式工具使用的代理模型中似乎表现得非常优越于Transformers。很高兴看到这个直觉得到了验证,希望更多的研究能继续沿着这些方向进行!