Ten artykuł DeepMind właśnie cicho zabił najbardziej pocieszające kłamstwo w bezpieczeństwie AI. Pomysł, że bezpieczeństwo dotyczy tego, jak modele zachowują się przez większość czasu, brzmi rozsądnie. Jest też błędny w momencie, gdy systemy się skalują. DeepMind pokazuje, dlaczego średnie przestają mieć znaczenie, gdy wdrożenie osiąga miliony interakcji. Artykuł przekształca bezpieczeństwo AGI w problem rozkładu. To, co ma znaczenie, to nie typowe zachowanie. To ogon. Rzadkie awarie. Przypadki brzegowe. Wydarzenia o niskim prawdopodobieństwie, które wydają się ignorowalne w testach, ale stają się nieuniknione w rzeczywistym świecie. Benchmarki, red-teaming i pokazy wszystkie próbkują środek. Wdrożenie próbuje wszystkiego. Dziwni użytkownicy, dziwne zachęty, wrogie pętle sprzężenia zwrotnego, środowiska, na które nikt nie był przygotowany. W skali te przypadki przestają być rzadkie. Są gwarantowane. Oto niewygodna prawda: postęp może sprawić, że systemy będą wyglądać na bezpieczniejsze, podczas gdy cicho czynią je bardziej niebezpiecznymi. Jeśli zdolności rosną szybciej niż kontrola ogona, widoczne awarie maleją, podczas gdy katastrofalne ryzyko narasta poza ekranem. Dwa modele mogą wyglądać identycznie w średniej, a mimo to różnić się drastycznie w zachowaniu w najgorszym przypadku. Obecne oceny nie mogą dostrzec tej luki. Ramy zarządzania zakładają, że mogą. Nie można certyfikować bezpieczeństwa przy ograniczonych testach, gdy ryzyko tkwi w przesunięciu rozkładu. Nigdy nie testujesz systemu, który faktycznie wdrażasz. Próbkujesz przyszłość, której nie kontrolujesz. To jest prawdziwy puenta. Bezpieczeństwo AGI nie jest atrybutem modelu. To problem systemowy. Kontekst wdrożenia, zachęty, monitorowanie i to, ile ryzyka ogonowego społeczeństwo toleruje, mają większe znaczenie niż czyste średnie. Ten artykuł nie uspokaja. Usuwa iluzję. Pytanie nie brzmi, czy model zazwyczaj zachowuje się dobrze. Chodzi o to, co się dzieje, gdy tak nie jest — i jak często to jest dozwolone, zanim skala uczyni to nieakceptowalnym. Artykuł: