Qual a diferença entre um token, um resíduo, uma ativação e um latente? Todos eles me parecem se referir ao mesmo objeto, um vetor N-dim de flutuantes geralmente, que passa por alguma evolução ao longo do tempo. Ainda assim, as pessoas parecem insistir que algumas coisas são uma, mas não as outras.
@yudhister_ Embora, se você adotar essa visão, parece muito estranho dizer que transformers são tokenizados... O transformador nunca vê um token. Não há atenção cruzada entre fichas. Eles precisam ser transformados em latentes primeiro
@yudhister_ As pessoas, em vez disso, falam dos tokens como se fossem slots, "autoatenção entre tokens", e o token passa de manter um int para um vetor de floats.
300