DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Volevo fare alcune chiarificazioni, che riteniamo fossero chiare nel nostro documento ma non nel mio post originale (ri-analizzando i dati di @METR_Evals). Il nostro contributo è posizionare il progresso come un prodotto moltiplicativo di sigmoidi attorno a diverse innovazioni. Dati i dati METR, li abbiamo suddivisi in miglioramenti delle capacità di base (dimensione dei dati/modello) e ragionamento. Mostriamo che questo prodotto fornisce un adattamento *in-sample* simile ai piccoli dataset che osserviamo come crescita esponenziale. Tuttavia, le implicazioni sono molto diverse! Sotto il nostro modello, avremmo bisogno di continue innovazioni (simili al ragionamento) per vedere un continuo progresso esponenziale. Questo non significa che escludiamo il progresso esponenziale, o che il nostro prodotto di sigmoidi sia il modello giusto. È semplicemente per dire che ci sono pochi punti e molteplici possibili modelli sottostanti con implicazioni molto diverse. Il nostro adattamento sigmoidale del prodotto si adatta molto bene quando escludiamo GPT 5.2 e/o Gemini 3 pro. Stiamo peggio quando escludiamo anche Claude Opus 4.5, ma è comunque plausibile. Il nostro obiettivo non è discutere sui metriche OOS su un pugno di punti dati, ma sottolineare che le previsioni esistenti sono fragili e non modellano la successione di diverse innovazioni. (Ci sono un paio di altri adattamenti che circolano su X, ma non sembrano utilizzare il nostro prodotto sigmoidale proposto, quindi non posso dire cosa stia succedendo lì...) Mi scuso per il mio post precedente poco sfumato – speriamo che le persone leggano il documento!

Principali

Ranking

Preferiti