DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Ik wilde een paar verduidelijkingen maken, waarvan we geloven dat ze duidelijk waren in ons paper, maar niet in mijn oorspronkelijke bericht (heranalyse van de gegevens van @METR_Evals). Onze bijdrage is om vooruitgang te beschouwen als een multiplicatief product van sigmoïden rond verschillende innovaties. Gegeven de METR-gegevens, splitsen we het in verbeteringen in basiscapaciteiten (gegevens/modelgrootte) en redeneren. We tonen aan dat dit product een vergelijkbare *in-sample* fit biedt voor de kleine datasets die we observeren als exponentiële groei. De implicaties zijn echter heel anders! Onder ons model zouden we voortdurende innovaties (vergelijkbaar met redeneren) nodig hebben om voortdurende exponentiële vooruitgang te zien. Dit wil niet zeggen dat we exponentiële vooruitgang uitsluiten, of dat ons product van sigmoïden het juiste model is. Het is simpelweg om te zeggen dat er weinig punten zijn en meerdere mogelijke onderliggende modellen met heel verschillende implicaties. Onze product-sigmoid fit past eigenlijk heel goed wanneer we GPT 5.2 en/of Gemini 3 pro uitsluiten. We zien er slechter uit wanneer we ook Claude Opus 4.5 uitsluiten, maar het blijft plausibel. Ons doel is niet om te zeuren over OOS-metrics op een handvol datapunten, maar om erop te wijzen dat bestaande voorspellingen kwetsbaar zijn en de opvolging van verschillende innovaties niet modelleren. (Er zijn een paar andere fits die rond X zweven, maar ze lijken ons voorgestelde product-sigmoid niet te gebruiken, dus ik kan niet zeggen wat daar aan de hand is...) Mijn excuses voor mijn niet-nuanceerde eerdere bericht – we hopen dat mensen het paper zullen lezen!

Boven

Positie

Favorieten