0/9 LLM'leri verimsiz, tekdüze token düzeyinde işlemenin ötesine taşıyan hiyerarşik bir mimari olan Dinamik Büyük Kavram Modelleri (DLCM) tanıtmaktan memnunum. Bir sonraki alt kelime belirteçini veya sabit sayıda jeton tahminini yapmak yerine, DLCM dinamik olarak end2end eğitim paradigmasıyla adaptif sınırlı bir sonraki kavramları üretir. Daha rasyonel dinamik hesaplama tahsisi ile DLCM, standart yoğun transformatör mimarisine kıyasla çıkarım floplarını %34 azaltabilir. Ve verimlilik faydası, model boyutu ve bağlam uzunluğu büyüdükçe artıyor.