0/9 Mă bucur să introducem Dynamic Large Concept Models (DLCM), o arhitectură ierarhică care mută LLM-urile dincolo de procesarea ineficientă și uniformă la nivel de token. În loc să prezică următorul subcuvânt token sau un număr fix de token-uri, DLCM generează dinamic următoarele concepte cu frontieră adaptivă și o paradigmă de antrenament end2end. Cu o alocare de calcul dinamică mai rațională, DLCM poate reduce eșecurile de inferență cu 34% comparativ cu arhitectura standard de transformatoare dense. Iar beneficiul de eficiență crește atunci când dimensiunea modelului și lungimea contextului cresc.