Jaka jest różnica między tokenem, resztą, aktywacją a latentem? Wszystkie te terminy wydają się odnosić do tego samego obiektu, którym zazwyczaj jest wektor N-wymiarowy liczb zmiennoprzecinkowych, który ewoluuje w czasie. Mimo to, ludzie wydają się upierać, że niektóre rzeczy są jednym, a inne nie.
@yudhister_ Chociaż jeśli przyjrzysz się temu z tej perspektywy, wydaje się bardzo dziwne mówić, że transformatory są tokenizowane… transformator nigdy nie widzi tokena. Nie ma między tokenami uwagi krzyżowej. Muszą najpierw zostać przekształcone w latenty.
@yudhister_ Ludzie zamiast tego mówią o tokenach, jakby były slotami, "self-attention między tokenami", a token przechodzi z trzymania inta do trzymania wektora floatów.
291