«GHC 引入了一种灵活的机制,通过轻量级计算,将超宽隐藏状态压缩到主干宽度,然后再将其输入到注意力或前馈模块中,最后将模块输出扩展回超宽状态» 疯狂的胆量
DailyPapers
DailyPapers11月17日 12:11
字节跳动推出虚拟宽度网络(VWN),以实现高效的AI扩展 这个新框架扩展了模型嵌入空间,以便进行更广泛的表示,同时保持计算不变。它使得下一个标记的优化速度提高了2倍,下两个标记的预测速度提高了3倍!
相对便宜
33.28K