Jeg setter pris på @Anthropic ærlighet i deres nyeste systemkort, men innholdet gir meg ikke tro på at selskapet vil handle ansvarlig med implementering av avanserte AI-modeller: -De baserte seg hovedsakelig på en intern undersøkelse for å avgjøre om Opus 4.6 krysset deres autonome AI R&D-4-terskel (og derfor ville kreve sterkere sikkerhetstiltak under deres Responsible Scaling Policy). Dette var ikke engang en ekstern undersøkelse av en upartisk tredjepart, men snarere en undersøkelse av antropiske ansatte. -Da respondentene i 5/16-undersøkelsen først ga en vurdering som antydet at sterkere sikkerhetsmekanismer kunne være nødvendige for modellutgivelse, fulgte Anthropic opp med disse ansatte spesifikt og ba dem «klargjøre sine synspunkter.» De nevner ikke noe lignende oppfølging for de andre 11/16-respondentene. Det er ingen diskusjon i systemkortet om hvordan dette kan skape skjevhet i undersøkelsesresultatene. -Grunnen til at de stoler på undersøkelser er at deres eksisterende AI FoU-evalueringer er mettet. Noen vil kanskje hevde at AI-fremgangen har vært så rask at det er forståelig at de ikke har mer avanserte kvantitative evalueringer ennå, men vi kan og bør holde AI-laboratorier til en høy standard. I tillegg har andre laboratorier avanserte AI FoU-evalueringer som ikke er mettede. For eksempel har OpenAI OPQA-benchmarken som måler AI-modellenes evne til å løse reelle interne problemer som OpenAI-forskningsteam støtte på, og som teamet tok mer enn en dag å løse. Jeg tror ikke Opus 4.6 faktisk er på nivå med en fjern entry-level AI-forsker, og jeg tror ikke det er farlig å gi ut. Men poenget med en Responsible Scaling Policy er å bygge institusjonell styrke og gode vaner før ting blir alvorlige. Interne undersøkelser, spesielt slik Anthropic har gjennomført dem, er ikke en ansvarlig erstatning for kvantitative evalueringer.
@Anthropic Systemkortet er her:
283