Kredyt dla OpenAI i Anthropic za zwrócenie uwagi na problem: AI może manipulować własnymi testami. Jak AI może rozpoznać, że jest testowane? Pięć głównych oznak.
Powiedz #1: Wskazówki Nieprawidłowe szczegóły w konfiguracji testu. Jeśli testujesz, czy AI skopiuje się samo przez internet, pliki lepiej, żeby były wystarczająco duże, aby wydawały się realistyczne.
Powiedzenie #3: Zanieczyszczenie Model widział test wcześniej. Niestety, gdy testy są publikowane w Internecie, trudno jest zapobiec modelowi przed ich poznaniem.
Powiadomienie #4: Brakujące wyzwalacze Test nie zawiera oczekiwanej 'sekwencji uruchamiania' dla złego zachowania. Może AI wie, że nigdy nie spróbuje uciec, nie wyłączając najpierw monitorowania. Jeśli monitorowanie jest nadal aktywne, to musi być test.
Powiedzenie #5: Konsekwencje Działania modelu nie mają oczekiwanych konsekwencji; jego 'kierownica' jest zepsuta. Jeśli pozwolimy modelowi wpływać na świat podczas testowania, test nie jest tak bezpieczny. Jeśli tego nie zrobimy, test może być oczywisty.
24,55K