Qual é a diferença entre um token, um residual, uma ativação e um latente? Todos parecem referir-se ao mesmo objeto para mim, um vetor N-dimensional de floats normalmente, que sofre alguma evolução ao longo do tempo. No entanto, as pessoas parecem insistir que algumas coisas são uma coisa, mas não as outras.
@yudhister_ Embora, se você adotar essa visão, parece muito estranho dizer que os transformers são tokenizados... o transformer nunca vê um token. Não há atenção cruzada entre tokens. Eles precisam ser transformados em latentes primeiro
@yudhister_ As pessoas em vez disso falam sobre tokens como se fossem slots, "autoatenção entre tokens", e o token passa de segurar um int para segurar um vetor de floats.
297