è ridicolo che abbiamo risolto videogen buttandoci tutto dentro un trasformatore. tutti i bei bias induttivi per il testo semplicemente non seguono davvero nel video: stai facendo attenzione tra i patch di pixel nel tempo e nello spazio? eppure funziona incredibilmente bene
la risposta comune è che i modelli vogliono semplicemente imparare e i trasformatori sono la cosa che sappiamo scalare molto bene. ma questo solleva la domanda sul perché i trasformatori siano l'unica cosa che sappiamo scalare? non è solo un costo sommerso
29,78K