المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ما مدى قدرة نماذج اللغة الكبيرة الحديثة على التنبؤ بالمستقبل؟ اختبروا على سوق توقع ~300 كالشي. أداء كلود أوبوس 4.5 كان الأفضل في اللعبة.
درجة بريير (وهي مقياس لمتوسط تربيع خطأ التنبؤ) ~0.23 لا تزال خارج نطاق المتنبئين الفائقين البشر (0.15-0.2) لكنها تقترب منها.

استخدموا الفترة من أكتوبر إلى نوفمبر 2025. لم يتم مقارنة Gemini 3 Pro لكن GPT 5.2 XHigh خيب للآمال.
المصدر:
(ForecastBench هو محاولة للقيام بذلك أيضا لكنه قديم ولا يحتوي على النماذج الجديدة)
271
الأفضل
المُتصدِّرة
التطبيقات المفضلة
