- Se continui la tendenza di METR, vedrai modelli da ~100h entro la fine dell'anno! (~8 volte più potenti di adesso) - METR avrà davvero difficoltà ad avere i benchmark necessari per valutare modelli di quella potenza - Non possiamo più escludere una significativa automazione dello sviluppo dell'AI QUEST'ANNO
Ajeya Cotra
Ajeya Cotra5 mar, 23:17
Nuovo post: il 14 gennaio ho previsto che l'orizzonte temporale di SWE entro la fine dell'anno sarebbe stato di ~24 ore. Ora penso che sarà >100 ore, e forse illimitato. Per la prima volta, non vedo prove solide contro l'automazione della R&D AI *quest'anno.* Link qui sotto.
@Douglas_Schon Il rapporto medio p80/p50 è di ~0,19... è notevolmente stabile.
@djinnius @microfounded @eli_lifland Ho anche un Substack
135