Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
o3 Pro pe rezultatele evaluării semi-private ARC-AGI
ARC-AGI-1:
* Scăzut: 44%, 1,64 USD/sarcină
* Mediu: 57%, 3,18 USD/sarcină
* Ridicat: 59%, 4,16 USD/sarcină
ARC-AGI-2:
* Toate eforturile de raționament: <5%, 4-7 USD/sarcină
Concluzii:
* O3-Pro în conformitate cu performanța O3
* Noul preț al o3 stabilește ARC-AGI-1 Frontier
De reținut, o3 Pro *nu* este același model pe care l-am testat în decembrie '24 (o3-preview)
OpenAI a confirmat în mod explicit acest lucru. Vezi tweet-ul de referință pentru mai multe informații

17 apr. 2025
Clarificarea performanței ARC-AGI a o3
OpenAI a confirmat:
* O3 lansat este un model diferit de ceea ce am testat în decembrie 2024
* Toate nivelurile de calcul o3 lansate sunt mai mici decât versiunea pe care am testat-o
* O3 eliberat nu a fost antrenat pe date ARC-AGI, nici măcar pe tren
* O3 lansat este reglat pentru utilizarea prin chat/produs, ceea ce introduce atât punctele forte, cât și punctele slabe ale ARC-AGI
Ce va face Premiul ARC:
* Vom testa din nou o3 lansat (toate nivelurile de calcul) și vom publica rezultatele actualizate. Scorurile anterioare vor fi etichetate "previzualizare"
* Vom testa și publica rezultatele o4-mini cât mai curând posibil
* Vom testa o3-pro odată ce va fi disponibil
Rezultatele O3 au fost actualizate pentru a reflecta reducerea cu 80% a prețului
Noi în grafic sunt punctele de date pentru o3 (raționament ridicat) și o4-mini (raționament ridicat). Acestea au fost excluse anterior din cauza timpilor de expirare ai modelului.
Noul "mod de fundal" al OpenAI ne-a permis să procesăm aceste modele pe setări de calcul ridicate.
Vezi clasamentul:
Reproduceți rezultatele:
108,77K
Limită superioară
Clasament
Favorite