Benchmarki AI są trochę jak standaryzowane testy, z którymi dorastaliśmy w szkole. Wygląda na to, że OpenAI nauczyło się do testu z wersją 5.2 i stworzyło model, który lepiej radzi sobie z testami niż z robieniem użytecznych rzeczy samodzielnie. Mam nadzieję, że skorygują kurs. Na razie używam Gemini i Grok