Je pense que c'est une bonne façon de visualiser la course à l'IA en utilisant le benchmark GPQA Diamond, qui a une longue durée de vie. Vous pouvez voir combien de temps OpenAI a eu le champ pour lui tout seul, la montée (et l'effondrement) de Meta, le rattrapage soudain (et puis la stagnation) de xAI, et l'entrée des LLM chinois à poids ouverts.
Le test de questions-réponses (Q&R) de niveau supérieur Google-Proof (GPQA) est une série de problèmes à choix multiples difficiles conçus pour tester des connaissances avancées. Les non-experts ayant accès à Internet obtiennent 34 % de bonnes réponses, tandis que les titulaires d'un doctorat avec accès à Internet obtiennent 65-70 % dans leur spécialité. Nous sommes probablement proches de la saturation.
J'ai ordonné à Codex que cela soit fait. Données de @EpochAIResearch.
1,45K