Abbiamo aggiunto Claude-Opus-4.6 a MathArena! È un modello potente, secondo solo a Gemini-3.1-Pro nella maggior parte dei benchmark. Un'eccezione: ottiene punteggi piuttosto scarsi nella matematica visiva. Inoltre, è costoso: abbiamo speso circa 8.000 USD per aggiungere il modello, 10 volte qualsiasi altro modello che abbiamo mai valutato.