DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Apparemment, Opus 4.5 a mémorisé MATH de Hendrycks (y compris l'ensemble de test) et tous les AIMEs précédents également. Le modèle obtient environ 80-90 % de bonnes réponses lorsqu'il sort le nombre immédiatement sans aucune raison. C'est agaçant d'expérimenter sur des ensembles de données mathématiques...

Meilleurs

Classement

Favoris