0/9 Ich freue mich, die Dynamischen Großen Konzeptmodelle (DLCM) vorzustellen, eine hierarchische Architektur, die LLMs über ineffiziente, einheitliche Token-Verarbeitung hinausführt. Anstatt die Vorhersage des nächsten Subwort-Tokens oder einer festen Anzahl von Tokens durchzuführen, generiert DLCM dynamisch die nächsten Konzepte mit adaptiven Grenzen in einem End-to-End-Trainingsparadigma. Mit einer rationaleren dynamischen Berechnung zugewiesenen Ressourcen kann DLCM die Inferenz-Flops im Vergleich zur standardmäßigen dichten Transformer-Architektur um 34 % reduzieren. Und der Effizienzvorteil wächst, wenn die Modellgröße und die Kontextlänge zunehmen.