¿Cuál es la diferencia entre un token, un residuo, una activación y un latente? Todos estos me parecen referirse al mismo objeto, un vector N-dim de flotantes que suele evolucionar con el tiempo. Sin embargo, la gente parece insistir en que algunas cosas son una cosa y no las otras.
@yudhister_ Aunque si tienes esa opinión parece muy raro decir que los transformers están tokenizados... El transformador nunca ve un token. No hay atención cruzada entre fichas. Primero hay que convertirlos en latentes
@yudhister_ La gente habla de los tokens como si fueran ranuras, "autoatención entre tokens", y el token pasa de tener un int a un vector de floats.
300