Qual è la differenza tra un token, un residuo, un'attivazione e un latente? A me sembrano tutti riferirsi allo stesso oggetto, un vettore N-dimensionale di float di solito, che subisce un'evoluzione nel tempo. Eppure le persone sembrano insistere che alcune cose siano una ma non le altre.
@yudhister_ Anche se se prendi quel punto di vista sembra molto strano dire che i trasformatori sono tokenizzati... il trasformatore non vede mai un token. Non c'è attenzione incrociata tra i token. Devono prima essere trasformati in latenti.
@yudhister_ La gente parla invece di token come se fossero slot, "autoattenzione tra i token", e il token passa dal contenere un intero a contenere un vettore di float.
333