Doceniam szczerość @Anthropic w ich najnowszej karcie systemu, ale jej treść nie daje mi pewności, że firma będzie działać odpowiedzialnie przy wdrażaniu zaawansowanych modeli AI: - Głównie polegali na wewnętrznej ankiecie, aby określić, czy Opus 4.6 przekroczył ich próg autonomicznych badań i rozwoju AI R&D-4 (a zatem wymagałby silniejszych zabezpieczeń do wydania zgodnie z ich Polityką Odpowiedzialnego Skalowania). To nie była nawet zewnętrzna ankieta przeprowadzona przez bezstronną stronę trzecią, lecz raczej ankieta wśród pracowników Anthropic. - Kiedy 5/16 respondentów wewnętrznej ankiety początkowo oceniło, że mogą być potrzebne silniejsze zabezpieczenia przy wydaniu modelu, Anthropic skontaktował się z tymi pracownikami i poprosił ich o "wyjaśnienie ich poglądów." Nie wspominają o żadnym podobnym follow-upie dla pozostałych 11/16 respondentów. W karcie systemu nie ma dyskusji na temat tego, jak może to wprowadzać stronniczość w wynikach ankiety. - Ich powód polegania na ankietach to fakt, że ich istniejące oceny R&D AI są nasycone. Niektórzy mogą argumentować, że postęp w AI był tak szybki, że zrozumiałe jest, że nie mają jeszcze bardziej zaawansowanych ocen ilościowych, ale możemy i powinniśmy stawiać laboratoria AI na wysokim poziomie. Ponadto inne laboratoria mają zaawansowane oceny R&D AI, które nie są nasycone. Na przykład, OpenAI ma benchmark OPQA, który mierzy zdolność modeli AI do rozwiązywania rzeczywistych problemów wewnętrznych, z którymi napotkały zespoły badawcze OpenAI i które zajęły zespołowi więcej niż jeden dzień do rozwiązania. Nie sądzę, aby Opus 4.6 był rzeczywiście na poziomie zdalnego początkującego badacza AI, i nie sądzę, że jego wydanie jest niebezpieczne. Ale celem Polityki Odpowiedzialnego Skalowania jest budowanie instytucjonalnej siły i dobrych nawyków, zanim sprawy staną się poważne. Wewnętrzne ankiety, zwłaszcza takie, jakie przeprowadził Anthropic, nie są odpowiedzialnym substytutem dla ocen ilościowych.
@Anthropic Karta systemu jest tutaj:
280