DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Quanto bene prevedono il futuro i moderni LLM? Sono stati testati su circa 300 mercati di previsione Kalshi. Claude Opus 4.5 ha ottenuto i migliori risultati. Il suo Brier Score (una misura dell'errore quadratico medio delle probabilità di previsione) di circa 0,23 è ancora lontano dai superprevisori umani (0,15-0,2) ma si sta avvicinando.

Hanno usato Ott-Nov 2025. Gemini 3 Pro non è stato confrontato, ma GPT 5.2 XHigh ha deluso. Fonte:

(ForecastBench è anche un tentativo di fare questo, ma è obsoleto e non ha i nuovi modelli)

269

Principali

Ranking

Preferiti