DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Je voulais apporter quelques clarifications, que nous croyons claires dans notre article mais pas dans mon post original (ré-analyser les données de @METR_Evals). Notre contribution est de poser le progrès comme un produit multiplicatif de sigmoïdes autour de différentes innovations. Étant donné les données METR, nous les avons divisées en améliorations des capacités de base (taille des données/modèle) et en raisonnement. Nous montrons que ce produit fournit un ajustement *in-sample* similaire aux petits ensembles de données que nous observons comme une croissance exponentielle. Cependant, les implications sont très différentes ! Selon notre modèle, nous aurions besoin d'innovations continues (semblables au raisonnement) pour voir un progrès exponentiel continu. Cela ne veut pas dire que nous excluons le progrès exponentiel, ou que notre produit de sigmoïdes est le bon modèle. C'est simplement pour dire qu'il y a peu de points et plusieurs modèles sous-jacents possibles avec des implications très différentes. Notre ajustement de sigmoïde produit s'adapte en fait très bien lorsque nous excluons GPT 5.2 et/ou Gemini 3 pro. Nous avons un aspect moins bon lorsque nous excluons également Claude Opus 4.5, mais cela reste plausible. Notre objectif n'est pas de chipoter sur les métriques OOS sur une poignée de points de données, mais de souligner que les prévisions existantes sont fragiles et ne modélisent pas la succession des différentes innovations. (Il y a quelques autres ajustements qui circulent sur X, mais ils ne semblent pas utiliser notre sigmoïde produit proposé, donc je ne peux pas dire ce qui s'y passe...) Je m'excuse pour mon post précédent peu nuancé – nous espérons que les gens liront l'article !

Meilleurs

Classement

Favoris