AI-benchmarks er litt som standardiserte tester vi vokste opp med på skolen. OpenAI ser ut til å ha undervist til testen med 5.2 og laget en modell som er bedre til å ta tester enn å gjøre nyttige ting på egenhånd. Jeg håper de korrigerer kursen. Foreløpig bruker jeg Gemini og Grok