هذا ملخص لأوراق بحثية باللغة الإنجليزية البسيطة بعنوان <a href=" بنية هجينة للانتباه الزمني-الواعي للتوصية المتسلسلة طويلة السلوك</a>. إذا كنت تحب هذا النوع من التحليل، انضم إلى <a href=" أو تابعنا على <a href=" <h2>المقابل المستحيل</h2> <p>لسنوات، واجه أي شخص يبني نظام توصية معضلة حقيقية. يمكن أن تمتد تسلسلات سلوك المستخدم إلى آلاف أو عشرات الآلاف من التفاعلات. فهم هذا التاريخ يتطلب الإجابة على سؤال بسيط يبدو خادعا: بالنظر إلى كل ما فعله المستخدم من قبل، ماذا يجب أن نوصي بعد ذلك؟</p> <p>يستخدم النهج القياسي الانتباه السوفت ماكس، وهو آلية تحسب المقارنات التفصيلية بين اللحظة الحالية وكل تفاعل سابق. رياضيا هو أنيق. يعمل بشكل رائع. لكن التكلفة الحسابية تتناسب بشكل تربيعي مع طول التسلسل. عند 10,000 تفاعل، تقوم بحوالي 100 مليون مقارنة فقط لتقديم توصية واحدة. إذا وسعت ذلك عبر ملايين المستخدمين وآلاف التوصيات في الثانية، ستصبح تكاليف البنية التحتية باهظة للغاية.</p> <p>لذا الممارسون يتنازلون. تتجه هذه الآليات إلى آليات الانتباه الخطية، التي تقلل من تعقيد الحساب من التربيعي إلى الخطي. الحسابات ذكية، وزيادات السرعة حقيقية. المشكلة: أن السرعة تأتي بثمن. تحافظ هذه الآليات على "حالة" مستمرة يتم تحديثها مع كل تفاعل جديد، لكن هذه الحالة ذات سعة محدودة. إنه مثل أمين مكتبة لا يستطيع سوى تدوين أنماط تقريبية على لوحة صغيرة بدلا من الرجوع إلى السجلات الكاملة. تفقد الدقة اللازمة للتعرف على تسلسلات سلوكية محددة تشير إلى نية المستخدم.

هذا التوازن هو من حدد المجال. الطرق الفعالة تضحي بالدقة. الطرق الدقيقة تضحي بالسرعة. والمستخدمون الذين يعانون أكثر هم أولئك الذين لديهم تسلسلات طويلة جدا، وهم المستخدمون القويون والمتفاعلون القويون الذين لديهم سلوك مثير للاهتمام للتعلم منه.

شاهد الباحثون وراء HyTRec هذا يحدث وطرحوا سؤالا مختلفا: ماذا لو لم تكن هذه المشكلة في الواقع مشكلة واحدة تتطلب حلا واحدا؟

كيف يفكر المستخدمون فعليا

تبدأ الرؤية بملاحظة بسيطة حول كيفية عمل تفضيلات المستخدم فعليا. لديك نوعان مختلفان جذريا من إشارات التفضيل، وهما يعملان على جداول زمنية مختلفة تماما.

تفضيلاتك المستقرة طويلة الأمد تأتي من تاريخ عميق. إذا كنت قد نقرت على أجهزة تقنية 500 مرة خلال عامين، فهذا دليل قوي على أنك تحب التكنولوجيا. هذا التفضيل لا يتغير كثيرا من أسبوع لآخر. من المهم أنك لا تحتاج إلى كل واحدة من تلك التفاعلات ال500 لفهم النمط. يمكنك أن تتعلم نفس الشيء من 50 منهم، أو حتى من ملخص إحصائي تقريبي. التقريب حول هذه الإشارة لا يخسر تقريبا شيئا.

ارتفاعات نواياك قصيرة المدى تأتي من سلوكيات حديثة. إذا ضغطت على ثلاثة معاطف شتوية خلال الساعتين الماضيتين، فأنت تتسوق الآن للمعاطف. هذه الإشارة هشة. من السهل أن تفوته إذا كنت تقارن المتوسط مع آلاف التفاعلات الأخرى من قبل أشهر. لكنها تنبؤية بشكل مذهل بما ستفعله خلال الدقائق الخمس القادمة.

هذه ليست فقط مختلفة في الدرجة، بل في النوع. واحدة مستقرة ويمكنها تحمل التقريب. والآخر متقلب ويتطلب دقة. ومع ذلك، تحاول الطرق الحالية التعامل مع كليهما بآلية انتباه واحدة، وتحسنت في النهاية على حساب الأخرى.

الحل الهجين

الخطوة الأنيقة هي التوقف عن محاولة بناء آلية واحدة تقوم بكل شيء. بدلا من ذلك، قسم العمل بطريقة تعكس كيف يتصفح المستخدمون فعليا.

تمتد البنية عبر مسارين متوازيين. في الأولى، يمر تسلسل تاريخك بالكامل، حتى لو احتوى على 9000 تفاعل من الأشهر الستة الماضية، بفرع خطي في الانتباه. هذا الفرع لا يحتاج لأن يكون دقيقا. إنه بناء فهم واسع لفئة ذوقك العامة. وبما أنه يستخدم انتباها خطيا، فإنه يكتمل في الزمن يتناسب مع طول التسلسل، وليس بطول التسلسل تربيع الطول. إنه سريع.

في المسار الثاني، تمر تفاعلاتك الأخيرة، ربما 1000 خلال الأسبوعين الماضيين، بفرع تركيز سوفتماكس. يمكن لهذا الفرع أن يكون مكلفا لأنه يعمل على شريحة صغيرة جدا من البيانات. ينتج تمثيلات دقيقة لما قد ترغب فيه الآن. أنت تقوم بحسابات مكلفة، لكن على نافذة زمنية صغيرة.

كل فرع ينتج تمثيلا ل "ما الذي يجب أن نوصي به". ثم تجمع العمارة بينهما بذكاء. لقد أعدت دقة الانتباه في سوفتماكس مع الحفاظ على سرعة الانتباه الخطي، لأن كل واحدة تعمل الآن في مجالها الصحيح.


إطار HyTRec

يقسم HyTRec تسلسلات سلوك المستخدم الطويلة بين آليتين متخصصتين للانتباه، مما يسمح بالتعامل مع التفضيلات المستقرة والارتفاعات الأخيرة في النية بشكل مستقل.

هذه ليست تعديلا بسيطا. يبقى التعقيد الحسابي خطيا في طول التسلسل أثناء العمل على تسلسلات أطول بعشر مرات مما كانت الأساليب السابقة قادرة على التعامل معها بكفاءة. لكن هناك عقبة مخفية في العمارة.

جعل الإشارات الحديثة مهمة

التحدي في النظام الهجين هو أن فرع الانتباه الخطي شهد آلاف التفاعلات. فرع سوفتماكس شهد المئات. وبحسب الحجم الكبير، تكون إشارة الفرع الخطي أعلى. لكن في التوصية، الحداثة أهم من الحجم. نقرة من اليوم تخبرك أكثر عما يريده شخص ما مقارنة بنقرة من ستة أشهر مضت.

إذا عاملت كلا الفرعين بالتساوي، فإن البيانات القديمة تطغى على البيانات الجديدة. لقد حليت المشكلة الحاسوبية لكنك خلقت مشكلة في الاستجابة.

الحل يسمى شبكة دلتا الواعية بالزمن، أو TADN. تقوم الآلية بشيء مباشر: رفع وزن الإشارات السلوكية الجديدة ديناميكيا مع كبت الضوضاء التاريخية.

تخيل آلية بوابة تسأل كل جزء من التسلسل: "كم عمرك؟" التفاعلات الجديدة تكتسب وزنا أعلى. التفاعلات القديمة تصبح أوزان أقل. هذا لا يحدث في جدول ثابت، بل يتم التعلم من البيانات. تكتشف الشبكة أنماطا مثل: "بالنسبة لهذا المستخدم، تتغير أنماط السلوك كل بضعة أيام، لذا يجب أن توزن التفاعلات التي أطول من أسبوع بنصف القوة."

بدون TADN، كان النظام الهجين سيقدم توصيات أكثر رباكا مع تغير تفضيلات المستخدم. وبواسطتها، يظل النظام مستجيبا للتغيير. الإشارات الحديثة تؤثر بشكل طبيعي أكثر على التوصيات، لكن الشبكة تتعلم بالضبط مدى التأثير المنطقي لكل مستخدم ونوع تفاعل.

نتائج العالم الحقيقي

اختبر الباحثون HyTRec على مجموعات بيانات ضخمة مع تسلسلات سلوكية فعلية تصل إلى عشرات الآلاف من التفاعلات لكل مستخدم. هذه ليست بيانات أكاديمية نظيفة، بل فوضى على نطاق الإنتاج.

بالنسبة للسرعة، النتائج مهمة. يحافظ HyTRec على تعقيد الاستدلال الخطي. إذا ضاعفت طول التسلسل، يتضاعف زمن الاستدلال تقريبا. لا يتضاعف أربع مرات كما هو الحال مع Notmax Attention. عند تسلسل بطول 10,000، هذا الفرق يحدد ما إذا كان بإمكانك التوصية في 50 مللي ثانية أو 5 ثوان. على منصة تخدم ملايين المستخدمين، هذا الفرق هو الخط الفاصل بين الممكن والمستحيل.

...