0/9 很高興介紹動態大型概念模型(DLCM),這是一種層次架構,將大型語言模型(LLMs)推向超越低效、統一的標記級處理。 DLCM不是預測下一個子詞標記或固定數量的標記,而是以端到端的訓練範式動態生成下一個概念,並具有自適應邊界。 通過更合理的動態計算分配,DLCM可以將推理的浮點運算量減少34%,與標準的密集變壓器架構相比。隨著模型大小和上下文長度的增長,效率的好處也在增長。