Quanto bene prevedono il futuro i moderni LLM? Sono stati testati su circa 300 mercati di previsione Kalshi. Claude Opus 4.5 ha ottenuto i migliori risultati. Il suo Brier Score (una misura dell'errore quadratico medio delle probabilità di previsione) di circa 0,23 è ancora lontano dai superprevisori umani (0,15-0,2) ma si sta avvicinando.
Hanno usato Ott-Nov 2025. Gemini 3 Pro non è stato confrontato, ma GPT 5.2 XHigh ha deluso. Fonte:
(ForecastBench è anche un tentativo di fare questo, ma è obsoleto e non ha i nuovi modelli)
266