المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
أصبح نموذج اللغة الكبيرة كقاض وسيلة مهيمنة لتقييم مدى كفاءة النموذج في حل مهمة، لأنه يعمل بدون مجموعة اختبارات ويتعامل مع الحالات التي لا تكون فيها الإجابات فريدة.
ولكن رغم مدى انتشار هذا الاستخدام، فإن معظم النتائج المبلغ عنها متحيزة للغاية.
متحمس لمشاركة طباعتنا التمهيدية حول كيفية استخدام LLM بشكل صحيح كحكم.
🧵
===
فكيف يستخدم الناس LLM فعليا كحكم؟
معظم الناس يستخدمون النموذج كمثمن ويبلغون عن الاحتمال التجريبي بأن النموذج يقول إن الإجابة تبدو صحيحة.
عندما يكون نموذج اللغة الكبير مثاليا، يعمل هذا بشكل جيد ويعطي تقديرا غير متحيز.
إذا لم يكن نموذج اللغة الكبير مثاليا، ينكسر هذا القانون.
تخيل حالة يقوم فيها المدير الكبير بتقييم صحيح بنسبة 80 بالمئة من الوقت.
وبشكل أكثر تحديدا، إذا كانت الإجابة صحيحة، تقول النموذج الكبير "يبدو صحيحا" باحتمال 80 بالمئة، ونفس النسبة تنطبق عندما تكون الإجابة خاطئة فعليا.
في هذه الحالة، لا يجب أن تبلغ عن الاحتمال التجريبي لأنه منحاز. لماذا؟
لتكن الاحتمال الحقيقي لصحة النموذج المختبر هو p.
حينها فإن الاحتمال التجريبي بأن يقول النموذج "صحيح" (= q) هو
q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p
لذا يجب أن يكون التقدير غير المتحيز...



الأفضل
المُتصدِّرة
التطبيقات المفضلة

