Så alle modellene underpresterer mennesker på de nye internasjonale matematiske olympiadespørsmålene, og Grok-4 er spesielt dårlig på det, selv med best-of-n-utvalg? Utrolig!
531,98K