Dans quelle mesure les LLM modernes prédisent-ils l'avenir ? Ils ont été testés sur environ 300 marchés de prédiction Kalshi. Claude Opus 4.5 a obtenu les meilleurs résultats. Son score de Brier (une mesure de l'erreur quadratique moyenne des probabilités de prédiction) d'environ 0,23 est encore éloigné des super-prévisionnistes humains (0,15-0,2) mais s'en approche.
Ils ont utilisé oct-nov 2025. Gemini 3 Pro n'a pas été comparé mais GPT 5.2 XHigh a déçu. Source:
(ForecastBench est également une tentative de le faire, mais il est obsolète et n'a pas les nouveaux modèles)
285