„Was man im Grunde braucht, ist nicht die Aufmerksamkeit selbst, sondern ein ausreichend ausdrucksstarker geometrischer Evolutionsmechanismus für verborgene Repräsentationen.“ Sehr fair. Aufmerksamkeit ist ein besonderer Fall der Formrotation. Aber ich denke, ein quadratisches Element ist für statische Modelle unvermeidlich.
himanshu
himanshuVor 12 Stunden
Wir beenden dieses Jahr doch auf einer hohen Note, oder?
Menschen wären auch quadratisch, wenn wir nicht eine tiefe Hierarchie von Gedächtnisaktualisierungen hätten, die nicht wirklich durch den kv-Cache erfasst wird. Deshalb ist HOPE auch interessant.
38