المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
الجميع يريد العمل على مهمة ائتمانية طويلة الأفق، لكن هذا سؤال أكثر إلحاحا وعملية برأيي:
كيف يمكنك تجميع عدة مكافآت في تدرج واحد بشكل مثالي؟ كيف يعتمد هذا على ضوضاء المكافأة؟
عمل رائع جدا :)

منذ 18 ساعةً
استغرق الأمر بضع سنوات من التفكير العميق، لكنني متحمس جدا أخيرا لمشاركة PROSPER: خوارزمية جميلة قائمة على الانحدار للتعلم المعزز من *مكافآت المعايير* تتعامل بقوة مع *التغذية الراجعة غير المتسقة* التي يقدمها حكام نماذج اللغة الكبيرة. لنعد إلى بلاك (بوي)! 🧵 (1/n)

من الواضح أنه يمكنك زيادة جودة المكافآت من خلال إنفاق المزيد من الحوسبة على التصحيح. النموذج الحالي لهذا هو طرح الكثير من أسئلة نعم/لا، ثم التحويل إلى 0/1، ثم... المتوسط؟ هل هو الحد الأقصى للحدود؟
هذا يتخلى عن الكثير من الأجزاء التي أنفقناها على Compute
للحصول على إجابة، علينا أن نقرر ما هو "الأمثل" — هل توقع مينماكس الحكم؟ حكم عادي؟ ما هي احتمالية الحصول على الأقل K/N 1؟
"المكافأة" رائعة عندما تكون متعلقة بالمجال (نقاط، دولارات)، لكن في الواقع العملي، غالبا ما نعوضها بتسلق التلال
هذا رائع، لكنه مليء بنظرية الألعاب، ولست متأكدا أنه القصة الأكثر صلة بإعداد المعايير (حيث أن عدم الانتقالية ليست هي القضية الأساسية). لكنه سؤال يستحق المزيد من الاستكشاف

الطريقة التي أفكر بها في إعداد متعدد المعايير "نظيف" هي أننا نفترض وجود N دالة مكافأة ثنائية لمهمة ما، وكلها قابلة للتحقق بشكل معقول من خلال حل مثالي، لكن ملاحظاتنا على المكافأة تكون مزعجة قليلا
"زيادة احتمال الحل المثالي" ربما؟
1.72K
الأفضل
المُتصدِّرة
التطبيقات المفضلة
