Ceci est un résumé en anglais simple d'un article de recherche intitulé <a href=" A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation</a>. Si vous aimez ce genre d'analyses, rejoignez <a href=" ou suivez-nous sur <a href=" <h2>Le compromis impossible</h2> <p>Depuis des années, quiconque construit un système de recommandation fait face à un véritable dilemme. Les séquences de comportement des utilisateurs peuvent s'étendre sur des milliers ou des dizaines de milliers d'interactions. Comprendre cet historique nécessite de répondre à une question apparemment simple : étant donné tout ce qu'un utilisateur a fait auparavant, que devrions-nous recommander ensuite ?</p> <p>L'approche standard utilise l'attention softmax, un mécanisme qui effectue des comparaisons détaillées entre le moment actuel et chaque interaction passée. Mathématiquement, c'est élégant. Cela fonctionne à merveille. Mais le coût computationnel augmente de manière quadratique avec la longueur de la séquence. À 10 000 interactions, vous effectuez environ 100 millions de comparaisons juste pour faire une recommandation. Élargissez cela à des millions d'utilisateurs et des milliers de recommandations par seconde, et vos coûts d'infrastructure deviennent prohibitifs.</p> <p>Les praticiens font donc des compromis. Ils se tournent vers des mécanismes d'attention linéaire, qui réduisent la complexité computationnelle de quadratique à linéaire. Les mathématiques sont astucieuses, et les gains de vitesse sont réels. Le problème : cette vitesse a un coût. Ces mécanismes maintiennent un "état" en cours qui est mis à jour avec chaque nouvelle interaction, mais cet état a une capacité limitée. C'est comme un bibliothécaire qui ne peut que noter des schémas approximatifs sur un petit clipboard au lieu de consulter des dossiers complets. Vous perdez la précision nécessaire pour reconnaître des séquences comportementales spécifiques qui indiquent l'intention de l'utilisateur.
Ce compromis a défini le domaine. Les méthodes efficaces sacrifient la précision. Les méthodes précises sacrifient la vitesse. Et les utilisateurs qui souffrent le plus sont ceux avec des séquences ultra-longues, les utilisateurs puissants et les gros engageurs qui ont le comportement le plus intéressant à apprendre.
Les chercheurs derrière HyTRec ont observé cela se dérouler et ont posé une question différente : Et si ce n'était pas en réalité un seul problème nécessitant une seule solution ?
Comment les utilisateurs pensent réellement
L'idée commence par une simple observation sur la façon dont les préférences des utilisateurs fonctionnent réellement. Vous avez deux types de signaux de préférence fondamentalement différents, et ils opèrent sur des échelles de temps complètement différentes.
Vos préférences stables à long terme proviennent d'une histoire profonde. Si vous avez cliqué sur des gadgets technologiques 500 fois en deux ans, c'est une preuve solide que vous aimez la technologie. Cette préférence ne fluctue pas beaucoup d'une semaine à l'autre. Il est important de noter que vous n'avez pas besoin de chacune de ces 500 interactions pour comprendre le schéma. Vous pourriez apprendre la même chose à partir de 50 d'entre elles, ou même d'un résumé statistique approximatif. Être approximatif à propos de ce signal ne fait presque rien perdre.
Vos pics d'intention à court terme proviennent d'un comportement récent. Si vous avez cliqué sur trois manteaux d'hiver au cours des deux dernières heures, vous êtes en train de faire du shopping pour des manteaux en ce moment. Ce signal est fragile. Il est facile de le manquer si vous le moyennez avec des milliers d'autres interactions datant de plusieurs mois. Mais il est incroyablement prédictif de ce que vous allez faire dans les cinq prochaines minutes.
Ce ne sont pas seulement des différences de degré, ce sont des différences de nature. L'un est stable et peut tolérer l'approximation. L'autre est volatile et nécessite de la précision. Pourtant, les méthodes existantes essaient de gérer les deux avec un seul mécanisme d'attention, optimisant inévitablement l'un aux dépens de l'autre.
La solution hybride
Le mouvement élégant consiste à cesser d'essayer de construire un mécanisme qui fait tout. Au lieu de cela, divisez le travail d'une manière qui reflète la façon dont les utilisateurs naviguent réellement.
L'architecture fonctionne avec deux voies parallèles. Dans la première, votre séquence historique entière, même si elle contient 9 000 interactions des six derniers mois, passe par une branche d'attention linéaire. Cette branche n'a pas besoin d'être précise. Elle construit une compréhension large de votre catégorie de goût globale. Parce qu'elle utilise l'attention linéaire, elle se termine dans un temps proportionnel à la longueur de la séquence, et non à la longueur de la séquence au carré. C'est rapide.
Dans la deuxième voie, vos interactions récentes, peut-être 1 000 des deux dernières semaines, passent par une branche d'attention softmax. Cette branche peut se permettre d'être coûteuse car elle opère sur une petite tranche de données. Elle produit des représentations précises de ce que vous pourriez vouloir en ce moment. Vous effectuez un calcul coûteux, mais sur une petite fenêtre.
Chaque branche produit une représentation de "que devrions-nous recommander". Ensuite, l'architecture les combine intelligemment. Vous avez restauré la précision de l'attention softmax tout en maintenant la vitesse de l'attention linéaire, car chacune opère maintenant dans son domaine approprié.
HyTRec divise les longues séquences de comportement des utilisateurs entre deux mécanismes d'attention spécialisés, permettant aux préférences stables et aux pics d'intention récents d'être traités indépendamment.
Ce n'est pas un simple ajustement. La complexité computationnelle reste linéaire par rapport à la longueur de la séquence tout en opérant sur des séquences 10 fois plus longues que ce que les approches précédentes pouvaient gérer efficacement. Mais il y a un piège caché dans l'architecture.
Faire en sorte que les signaux récents comptent
Le défi d'un système hybride est que la branche d'attention linéaire a vu des milliers d'interactions. La branche softmax a vu des centaines. Par simple volume, le signal de la branche linéaire est plus fort. Mais dans la recommandation, la récence compte plus que le volume. Un clic d'aujourd'hui vous en dit plus sur ce que quelqu'un veut qu'un clic d'il y a six mois.
Si vous traitez les deux branches de manière égale, les données obsolètes étouffent les données fraîches. Vous avez résolu le problème computationnel mais créé un problème de réactivité.
La solution s'appelle le Réseau Delta Temporel-Aware, ou TADN. Le mécanisme fait quelque chose de simple : il augmente dynamiquement le poids des signaux comportementaux frais tout en supprimant le bruit historique.
Imaginez un mécanisme de filtrage qui demande à chaque partie de la séquence : "Quel âge as-tu ?" Les interactions fraîches obtiennent des poids plus élevés. Les anciennes interactions obtiennent des poids plus faibles. Cela ne se produit pas selon un calendrier fixe, c'est appris à partir des données. Le réseau découvre des schémas comme : "Pour cet utilisateur, les schémas de comportement changent tous les quelques jours, donc les interactions de plus d'une semaine devraient être pondérées à moitié."
Sans TADN, le système hybride ferait des recommandations de plus en plus obsolètes à mesure que les préférences d'un utilisateur changent. Avec lui, le système reste réactif au changement. Les signaux récents ont naturellement plus d'influence sur les recommandations, mais le réseau apprend exactement combien d'influence a du sens pour chaque utilisateur et type d'interaction.
Résultats dans le monde réel
Les chercheurs ont testé HyTRec sur d'énormes ensembles de données avec de véritables séquences de comportement des utilisateurs s'étendant sur des dizaines de milliers d'interactions par utilisateur. Ce ne sont pas des données académiques propres, c'est le désordre à l'échelle de la production.
En termes de vitesse, les résultats comptent. HyTRec maintient une complexité d'inférence linéaire. Doublez la longueur de la séquence, et le temps d'inférence double à peu près. Il ne quadruple pas comme le ferait l'attention softmax. À des séquences de longueur 10 000, cette différence détermine si vous pouvez recommander en 50 millisecondes ou en 5 secondes. Sur une plateforme servant des millions d'utilisateurs, cette différence est la ligne entre le faisable et l'impossible.
...