DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Je pense que c'est une bonne façon de visualiser la course à l'IA en utilisant le benchmark GPQA Diamond, qui a une longue durée de vie. Vous pouvez voir combien de temps OpenAI a eu le champ pour lui tout seul, la montée (et l'effondrement) de Meta, le rattrapage soudain (et puis la stagnation) de xAI, et l'entrée des LLM chinois à poids ouverts.

Le test de questions-réponses (Q&R) de niveau supérieur Google-Proof (GPQA) est une série de problèmes à choix multiples difficiles conçus pour tester des connaissances avancées. Les non-experts ayant accès à Internet obtiennent 34 % de bonnes réponses, tandis que les titulaires d'un doctorat avec accès à Internet obtiennent 65-70 % dans leur spécialité. Nous sommes probablement proches de la saturation.

J'ai ordonné à Codex que cela soit fait. Données de @EpochAIResearch.

1,45K

Meilleurs

Classement

Favoris