Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Astăzi anunțăm ARC Prize Verified, un program de creștere a rigoarei evaluării sistemelor de frontieră pe ARC-AGI
Acest program adaugă un panel academic terț pentru a audita procesul nostru de testare
De asemenea, primim 5 noi laboratoare AI ca sponsori ai ARC-AGI-3

Programul de audit academic ARC Prize
Suntem încântați să primim patru consilieri academici pentru a ne îmbunătăți procesul de testare. Aceștia:
- Asigurarea supravegherii externe a protocolului nostru ascuns al setului de testare
- Auditați și verificați metodele noastre de testare
- Co-autor de cele mai bune practici pentru testarea benchmark-urilor
Astăzi se alătură panelului:
- Todd Gureckis (profesor de psihologie la NYU)
- Guy Van den Broeck (profesor de informatică la UCLA)
- Melanie Mitchell (profesor la Institutul Santa Fe)
- Vishal Misra (vicedecan de calcul și AI la Columbia)
Întâmpinarea a 5 sponsori de laborator
Suntem încântați să anunțăm primele noastre contribuții externe de laborator, fonduri limitate dedicate îmbunătățirii calității ARC-AGI-3
@ndea
@xai
@Googleorg
@NousResearch
@PrimeIntellect
Insignă verificată ARC Prize
Multe organizații sunt dornice să testeze pe ARC-AGI, dar scorurile auto-raportate variază în ceea ce privește consistența testării
Doar scorurile evaluate pe setul nostru de teste ascunse vor fi recunoscute ca scoruri de performanță verificate
O nouă insignă verificată ARC Prize va indica aceste

178
Limită superioară
Clasament
Favorite
