DApp Store | Web3 Hub for hendelser og spill

Populære emner

Si hei til Exclusive Self Attention (XSA), en (nesten) gratis forbedring av Transformers for LM. Observasjon: for y = attn(q, k, v), har yi og vi en tendens til å ha svært høy kosinuslikhet Fiks: ekskluder vi fra yi via zi = yi - (yiTvi)vi/‖vi‖² Resultat: bedre trening/verdi-tap på tvers av modellstørrelser; økende gevinster etter hvert som sekvenslengden øker. Se mer:

Topp

Rangering

Favoritter