0/9 很高兴介绍动态大概念模型(DLCM),这是一种层次结构,超越了低效的统一令牌级处理。 DLCM不是预测下一个子词令牌或固定数量的令牌,而是以端到端的训练范式动态生成下一个概念,具有自适应边界。 通过更合理的动态计算分配,DLCM可以将推理的浮点运算减少34%,与标准的稠密变换器架构相比。当模型大小和上下文长度增加时,效率收益也在增长。