Pre-pre-trening w końcu zyskuje na popularności. Hutter musi być zadowolony.
Seungwook Han
Seungwook Han12 mar, 22:26
Czy modele językowe mogą nauczyć się użytecznych priorytetów, nie widząc nigdy języka? Wstępnie trenujemy transformery na syntetycznych automatach komórkowych — całkowicie syntetycznych, bez języka. To poprawia modelowanie języka o 6%, przyspiesza zbieżność o 40% i wzmacnia rozumowanie w downstream. Zaskakująco, nawet przewyższa wstępne trenowanie na naturalnym tekście! Blog: (1/n)
(Trochę) to przewidziałem wciąż oczekuję, że jakieś duże laboratorium to przyjmie
34