0/9 Радий представити Dynamic Large Concept Models (DLCM) — ієрархічну архітектуру, яка виводить LLM за межі неефективної, уніфікованої обробки на рівні токенів. Замість прогнозування наступного токена підслова або фіксованої кількості токенів, DLCM динамічно генерує наступні концепції з адаптивною межею за допомогою навчальної парадигми end2end. Завдяки більш раціональному динамічному розподілу обчислювань DLCM може зменшити флопи на 34% порівняно зі стандартною архітектурою щільних трансформаторів. І перевага в ефективності зростає, коли розмір моделі та довжина контексту збільшуються.