Vandaag kondigen we ARC Prize Verified aan, een programma om de strengheid van de evaluatie van grenssystemen op ARC-AGI te vergroten. Dit programma voegt een externe academische panel toe om ons testproces te auditen. We verwelkomen ook 5 nieuwe AI-laboratoria als sponsors van ARC-AGI-3.
ARC Prize Academische Audit Program We zijn enthousiast om vier academische adviseurs te verwelkomen om ons testproces te verbeteren. Zij zullen: - Externe controle bieden van ons protocol voor verborgen testsets - Onze testmethoden auditen en verifiëren - Co-auteurs zijn van best practices voor benchmarktesten
Vandaag zijn de volgende panelleden aanwezig: - Todd Gureckis (Professor in de Psychologie aan NYU) - Guy Van den Broeck (Professor in de Computerwetenschappen aan UCLA) - Melanie Mitchell (Professor aan het Santa Fe Institute) - Vishal Misra (Vice-decaan van Computing en AI aan Columbia)
Welkom 5 Lab Sponsors We zijn enthousiast om onze eerste externe labbijdragen aan te kondigen, beperkte fondsen die zijn gewijd aan het verbeteren van de kwaliteit van ARC-AGI-3 @ndea @xai @Googleorg @NousResearch @PrimeIntellect
ARC Prize Geverifieerde Badge Veel organisaties zijn enthousiast om te testen op ARC-AGI, maar zelfgerapporteerde scores variëren in testconsistentie. Alleen scores die zijn geëvalueerd op onze verborgen testset zullen worden erkend als geverifieerde prestatie-scores. Een nieuwe ARC Prize Geverifieerde Badge zal deze aanduiden.
175