Tokenisasi telah menjadi penghalang terakhir untuk model bahasa yang benar-benar end-to-end. Kami mengembangkan H-Net: jaringan hierarkis yang menggantikan tokenisasi dengan proses chunking dinamis langsung di dalam model, secara otomatis menemukan dan mengoperasikan unit data yang bermakna
Kami sangat senang melihat bagaimana H-Nets akan memungkinkan model untuk belajar lebih efisien, dengan lebih sedikit priors dan pra-pemrosesan, di semua jenis modalitas! Karya ini merupakan kolaborasi dengan @cartesia_ai 10/10
653,28K