Denne DeepMind-artikkelen har nettopp stille drept den mest trøstende løgnen innen AI-sikkerhet. Ideen om at sikkerhet handler om hvordan modellene oppfører seg mesteparten av tiden høres rimelig ut. Det er også feil når systemene skalerer. DeepMind viser hvorfor gjennomsnitt slutter å bety noe når utrullingen når millioner av interaksjoner. Artikkelen omdefinerer AGI-sikkerhet som et distribusjonsproblem. Det som betyr noe er ikke typisk oppførsel. Det er halen. Sjeldne feil. Kanttilfeller. Hendelser med lav sannsynlighet som føles ignorerbare i tester, men som blir uunngåelige i den virkelige verden. Benchmarks, red-teaming og demoer utgjør alle et utvalg av midten. Utrulling prøver alt. Merkelige brukere, merkelige insentiver, fiendtlige tilbakemeldingssløyfer, miljøer ingen hadde planlagt for. I stor skala slutter slike tilfeller å være sjeldne. De er garantert. Her er den ubehagelige innsikten: fremgang kan få systemer til å se tryggere ut, samtidig som de stille gjør dem farligere. Hvis kapasiteten vokser raskere enn halekontroll, går synlige feil ned mens katastrofale risikoer bygger seg opp utenfor skjermen. To modeller kan i gjennomsnitt se identiske ut og likevel variere kraftig i verst tenkelig atferd. Nåværende evalueringer kan ikke se dette gapet. Styringsrammeverk antar at de kan. Du kan ikke sertifisere sikkerhet med endelige tester når risikoen ligger i distribusjonsskiftet. Du tester aldri systemet du faktisk ruller ut. Du prøver en fremtid du ikke kontrollerer. Det er den virkelige poenget. AGI-sikkerhet er ikke en modellegenskap. Det er et system-problem. Implementeringskontekst, insentiver, overvåking og hvor mye halerisiko samfunnet tolererer, betyr alle mer enn rene gjennomsnitt. Dette papiret gir ingen trygghet. Det fjerner illusjonen. Spørsmålet er ikke om modellen vanligvis oppfører seg bra. Det er hva som skjer når det ikke skjer — og hvor ofte det er tillatt før skalaen gjør det uakseptabelt. Artikkel: