يجب أن يكون مساعدو العملات الرقمية قادرين على التفكير في الأسواق المتغيرة. وهذا يعني معايير أكثر صرامة وقائمة على الإنتاج. يساعد CryptoAnalystBench في تطوير التفكير في الذكاء الاصطناعي مفتوح المصدر من خلال تقييم الإجابات الطويلة للتشفير بناء على الصلة، والأهمية الزمنية، والعمق، واتساق 🧵 البيانات
2/ هذا المعيار مهم لأن المنطق ينكسر في ظروف متغيرة بسرعة معظم التقييمات تتحقق مما إذا كان النموذج يستطيع جمع الحقائق. في العملات المشفرة، يحتاج المستخدمون إلى موقف متماسك عندما تتعارض الإشارات، وتتغير نوافذ الزمن، وتختلف المصادر. إذا لم تقيس هذا التركيب، فإنك ترسل مساعدين طيارين يبدون معقولين، ثم ينجرفون، يتناقضون مع بعضهم البعض، ويضللون القرارات. يسجل CryptoAnalystBench إجابات طويلة الشكل بأسلوب المحلل من حيث الصلة، العمق، الصلة الزمنية، واتساق البيانات، مما يمنح الفرق أساسا قابلا للتكرار لاختبار التكرار والانحدار. كما يظهر حيث ينهار الوكلاء في الممارسة: تأطير قديم، تركيب سطحي، تناقضات داخلية، وادعاءات مفرطة في الثقة. تم تصميم CryptoAnalystBench ليكمل مجموعات الحقائق الأرضية مثل DMind وCryptoBench، مع فحوصات منفصلة للحقائق لصحة مستوى الادعاء.
3/ بنينا CryptoAnalystBench من خلال تقطير حركة الإنتاج في مجموعة بيانات مدمجة بدأنا من جزء حديث من استفسارات Sentient Chat وأزلنا المحفزات التي كانت إما طويلة جدا للتقييم بشكل متسق أو قصيرة جدا لتعكس النية الحقيقية. ثم جمعنا الباقي في حوالي 2000 مجموعة نوايا، وحددنا 11 فئة، وقام الذكاء الاصطناعي بوضع علامات على كل استعلام حتى تبقى التغطية متوافقة مع الطلب الحقيقي للمستخدم. من هناك، أزلنا تقريبا النسخ المكررة من كل فئة، وقلمنا الأسئلة "السهلة" التي يمكن للنماذج الإجابة عليها من خلال التدريب فقط، وجمعنا صورة نهائية ممثلة يدويا للتقييم.
4/ اختياراتنا في تصميم مجموعة البيانات تحدد الأعطال التي يمكنك العثور عليها التقارب يضاعف الدرجات دون تحسين التغطية. التعليمات السهلة تخفي فشل الأدوات والتركيب. صممنا CryptoAnalystBench للحفاظ على التنوع، والحفاظ على نسب حركة المرور الحقيقية، والحفاظ على الوقت القوي حتى يلتقط الانحرافات والتراجعات بدلا من مكافأة الحفظ.
5/ حلقة التقييم مصممة للتكرار القابل للتكرار نقوم بتقييم كل إجابة بواسطة حكم في نموذج اللغة الكبيرة باستخدام معيار محدد وJSON فقط يخرج، دون الكشف عن أي نظام أنتج أي إجابة. اخترنا DeepSeek v3.1 عبر Fireworks بعد اختبار التحيز، ثم تم التحكم في التباين مع توزيع متوازن من ترتيب الردود ومحادثة مشتركة بين القضاة لكل استفسار لتقليل انحراف المعايرة. النتائج هي ما تحتاج فرق التطوير إلى تكراره: درجات لكل بعد، وترتيب لكل استعلام، وتقطيع الفئات لاختبار الانحدار والإصلاحات المستهدفة. كما يجعل هذا القيد واضحا، وهو أن جودة المحلل العالية يمكنها إخفاء الاعداد الوهمية أو الادعاءات المنسوبة بشكل خاطئ. الخطوات التالية هي إبقاء المعيار حديثا على وتيرة معينة وتوصينه بتوطين الأخطاء المعتمد على التتبع بالإضافة إلى فحوصات الوقائع المحدودة للأدلة.
‏‎65‏