«Ce dont on a fondamentalement besoin, ce n'est pas de l'attention elle-même, mais d'un mécanisme d'évolution géométrique suffisamment expressif pour les représentations cachées» Très juste. L'attention est un cas particulier de rotation de forme. Mais je pense qu'un élément quadratique est inévitable pour les modèles statiques.
himanshu
himanshuil y a 14 heures
nous terminons cette année sur une note positive, n'est-ce pas ?
Les humains seraient aussi quadratiques si nous n'avions pas une hiérarchie profonde de mises à jour de mémoire, ce qui n'est pas vraiment capturé par le cache kv. C'est pourquoi HOPE est intéressant, aussi.
62