Quelle est la différence entre un token, un résiduel, une activation et un latent ? Tout cela semble se référer au même objet pour moi, un vecteur N-dimensionnel de flottants généralement, qui subit une certaine évolution au fil du temps. Pourtant, les gens semblent insister sur le fait que certaines choses sont l'une mais pas les autres.
@yudhister_ Bien que si vous adoptez ce point de vue, il semble très étrange de dire que les transformateurs sont tokenisés... le transformateur ne voit jamais un token. Il n'y a pas d'attention croisée entre les tokens. Ils doivent d'abord être transformés en latents.
@yudhister_ Les gens parlent plutôt des tokens comme s'ils étaient des emplacements, "auto-attention entre les tokens", et le token passe de la détention d'un int à celle d'un vecteur de floats.
315