ما مدى قدرة نماذج اللغة الكبيرة الحديثة على التنبؤ بالمستقبل؟ اختبروا على سوق توقع ~300 كالشي. أداء كلود أوبوس 4.5 كان الأفضل في اللعبة. درجة بريير (وهي مقياس لمتوسط تربيع خطأ التنبؤ) ~0.23 لا تزال خارج نطاق المتنبئين الفائقين البشر (0.15-0.2) لكنها تقترب منها.
استخدموا الفترة من أكتوبر إلى نوفمبر 2025. لم يتم مقارنة Gemini 3 Pro لكن GPT 5.2 XHigh خيب للآمال. المصدر:
(ForecastBench هو محاولة للقيام بذلك أيضا لكنه قديم ولا يحتوي على النماذج الجديدة)
‏‎271‏