La tokenizzazione è stata l'ultima barriera per modelli linguistici veramente end-to-end. Abbiamo sviluppato l'H-Net: una rete gerarchica che sostituisce la tokenizzazione con un processo di suddivisione dinamica direttamente all'interno del modello, scoprendo e operando automaticamente su unità significative di dati.
Siamo incredibilmente entusiasti di vedere come gli H-Nets permetteranno ai modelli di apprendere in modo più efficiente, con meno assunzioni e pre-elaborazione, attraverso tutti i tipi di modalità! Questo lavoro è stato una collaborazione con @cartesia_ai 10/10
653,29K