谷歌DeepMind刚刚发布了这个新的LLM模型架构,称为混合递归。 它的推理速度提高了2倍,训练FLOPs减少,KV缓存内存减少约50%。真是个有趣的阅读。 有潜力成为变压器的杀手。
来源:
190.23K