nb dette ble tvitret 7 timer før OAI annonserte gullresultatet sitt
Ravid Shwartz Ziv
Ravid Shwartz Ziv19. juli, 09:17
Så alle modellene underpresterer mennesker på de nye internasjonale matematiske olympiadespørsmålene, og Grok-4 er spesielt dårlig på det, selv med best-of-n-utvalg? Utrolig!
26,05K