Các LLM hiện đại dự đoán tương lai tốt như thế nào? Họ đã thử nghiệm trên khoảng 300 thị trường dự đoán Kalshi. Claude Opus 4.5 đã đạt hiệu suất tốt nhất. Điểm Brier của nó (một thước đo sai số bình phương trung bình của xác suất dự đoán) khoảng ~0.23 vẫn chưa đạt đến mức của các nhà dự đoán siêu phàm (0.15-0.2) nhưng đang tiến gần đến nó.
Họ đã sử dụng tháng 10-11 năm 2025. Gemini 3 Pro không được so sánh nhưng GPT 5.2 XHigh đã gây thất vọng. Nguồn:
(ForecastBench cũng là một nỗ lực để làm điều này nhưng đã lỗi thời và không có các mô hình mới)
217