Vad är skillnaden mellan en token, en residual, en aktivering och en latent? Dessa verkar alla syfta på samma objekt för mig, en N-dim vektor av flottörer vanligtvis, som genomgår viss utveckling över tid. Ändå verkar folk insistera på att vissa saker är en och inte de andra.
@yudhister_ Men om man ser det verkar det väldigt märkligt att säga att transformers är tokeniserade... Transformern ser aldrig en token. Det finns ingen korsuppmärksamhet mellan tokens. De måste först omvandlas till latenta ämnen
@yudhister_ Folk pratar istället om tokens som om de vore slots, "självuppmärksamhet mellan tokens", och tokenen går från att hålla en int till att hålla en vektor av floats.
298