Cred că aceasta este o modalitate bună de a vizualiza cursa AI folosind benchmark-ul longeviv GPQA Diamond. Poți vedea cât timp a avut OpenAI domeniul doar pentru el, ascensiunea (și prăbușirea) Meta, recuperarea bruscă (și apoi stagnarea) a xAI și apariția LLM-urilor chineze open weight.
Testul de întrebări și răspunsuri Google-Proof la nivel de masterat (GPQA) este o serie de probleme dificile cu răspunsuri multiple, concepute pentru a testa cunoștințele avansate. Cei ne-experți cu acces la internet obțin 34% corect, doctoranzii cu acces la internet obțin 65-70% în specialitatea lor. Probabil suntem aproape de saturație
Am poruncit lui Codex să se facă asta. Date din @EpochAIResearch.
1,43K