La tokenizzazione è solo un caso speciale di "chunking" - costruire dati a basso livello in astrazioni ad alto livello - che è a sua volta fondamentale per l'intelligenza. La nostra nuova architettura, che consente il *chunking dinamico gerarchico*, non è solo priva di tokenizer, ma scala semplicemente meglio.
Sukjun (June) Hwang
Sukjun (June) Hwang12 lug, 00:06
La tokenizzazione è stata l'ultima barriera per modelli linguistici veramente end-to-end. Abbiamo sviluppato l'H-Net: una rete gerarchica che sostituisce la tokenizzazione con un processo di suddivisione dinamica direttamente all'interno del modello, scoprendo e operando automaticamente su unità significative di dati.
Questo è stato un progetto incredibilmente importante per me - volevo risolverlo da anni, ma non avevo idea di come. Tutto questo è stato il lavoro straordinario di @sukjun_hwang e @fluorane! Ho scritto della storia del suo sviluppo e di cosa potrebbe arrivare dopo. L'H-Net:
194,7K