0/9 ダイナミック大規模概念モデル(DLCM)を導入できることを嬉しく思います。これは、非効率で均一なトークンレベルの処理を超えてLLMを進化させる階層的なアーキテクチャです。 次のサブワードトークンや固定数のトークンの予測を行うのではなく、DLCMはend2endトレーニングパラダイムを用いた適応境界を持つ次の概念を動的に生成します。 より合理的で動的な計算割り当てにより、DLCMは標準的な高密度トランスフォーマーアーキテクチャと比べて推論フロップを34%削減できます。モデルサイズやコンテキストの長さが長くなるほど、効率化のメリットも増大します。