0/9 Me complace presentar los Modelos de Concepto Grande Dinámico (DLCM), una arquitectura jerárquica que lleva a los LLM más allá del procesamiento ineficiente y uniforme a nivel de token. En lugar de predecir el siguiente subtoken o un número fijo de tokens, el DLCM genera dinámicamente los siguientes conceptos con un límite adaptativo mediante un paradigma de entrenamiento de extremo a extremo. Con una asignación de computación dinámica más racional, el DLCM puede reducir los flops de inferencia en un 34% en comparación con la arquitectura estándar de transformador denso. Y el beneficio de eficiencia crece a medida que aumenta el tamaño del modelo y la longitud del contexto.