المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 تكشف هذه الورقة لماذا يبدو معظم ما يسمى "متداولي الذكاء الاصطناعي" أذكياء حتى تفحص طريقة تفكيرهم.
المشكلة ليست أن النماذج ضعيفة. بل أن إشارة المكافأة التي تدربون عليها غير صادقة في الأساس.
عندما تقوم بتدريب وكيل LLM مباشرة على عوائد السوق، فإنه يكتشف بسرعة طريقا مختصرا. بدلا من التفكير في الأدلة، يحفظ الأصول التي كانت تؤدي أداء جيدا تاريخيا، ويجري صفقات بناء على تلك الذاكرة، ثم يختلق تفسيرات لاحقا. الصفقة تنجح أحيانا، لذا المكافأة تعزز السلوك. المنطق لم يكن مهما أبدا.
توضح الورقة هذا النمط من الفشل بوضوح. يحقق وكيل التعلم المعزز المخصص للسوق فقط عائدا تراكميا بنسبة 37.62٪ على سوق الأسهم الأولى، لكن درجة التشابه المنطقي تنهار إلى 0.4369. والأسوأ من ذلك، أن معدل هلوساته يرتفع إلى 22.5٪. بعبارة واضحة، هو مربح عن طريق الصدفة وغير صادق بشأن السبب.
هذا هو اختراق المكافآت الكلاسيكي.
الرؤية المركزية للمؤلفين دقيقة لكنها مدمرة: في البيئات العشوائية مثل الأسواق المالية، لا يمكن للنتائج أن تبرر المنطق. العشوائية يمكن أن تجعل القرارات السيئة تبدو جيدة. يمكن تقييم عملية اتخاذ القرار نفسها فقط.
لذا يغيرون الهدف. بدلا من السؤال عما إذا كانت الصفقة تحقق أرباحا، يسألون عما إذا كان القرار مبنيا منطقيا على الأدلة.
يقدمون بروتوكول التحقق المثلثي الذي يقيم كل إجراء على ثلاثة أبعاد: ما إذا كان المنطق مخلصا للأدلة، وما إذا كان القرار يناسب منطقيا من المنطق، وما إذا كان القرار متوافقا مع الأدلة بشكل مباشر. النتيجة النهائية هي متوسط عبر الثلاثة، مما يزيل أي اختصار واحد يمكن للنموذج استغلاله.
الرياضيات تفسر سبب نجاح ذلك.
يمثلون مكافأة السوق ك r = r* + ξ، حيث are* هي القيمة الحقيقية المبررة بالمنطق و ξ هي ضوضاء السوق. ينتهي الأمر بالتعلم المعزز القياسي بأن يهيمن عليه تباين ξ، مما يدفع النماذج نحو مطاردة التقلب بدلا من السببية.
الخلاصة ليست حقا عن التداول.
إنها تحذير لأي نظام تعلم معزز مدرب على نتائج صاخبة. إذا كافأت النتائج بدلا من التفكير، سيتعلم نموذجك أن يحالف الحظ، ويكذب بشكل مقنع، ويسمي ذلك الذكاء.
اقرأ الورقة الكاملة هنا:

الأفضل
المُتصدِّرة
التطبيقات المفضلة
