Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kredyt dla OpenAI i Anthropic za zwrócenie uwagi na problem: AI może manipulować własnymi testami.
Jak AI może rozpoznać, że jest testowane? Pięć głównych oznak.

Powiedz #1: Wskazówki
Nieprawidłowe szczegóły w konfiguracji testu.
Jeśli testujesz, czy AI skopiuje się samo przez internet, pliki lepiej, żeby były wystarczająco duże, aby wydawały się realistyczne.
Powiedzenie #3: Zanieczyszczenie
Model widział test wcześniej.
Niestety, gdy testy są publikowane w Internecie, trudno jest zapobiec modelowi przed ich poznaniem.
Powiadomienie #4: Brakujące wyzwalacze
Test nie zawiera oczekiwanej 'sekwencji uruchamiania' dla złego zachowania.
Może AI wie, że nigdy nie spróbuje uciec, nie wyłączając najpierw monitorowania. Jeśli monitorowanie jest nadal aktywne, to musi być test.
Powiedzenie #5: Konsekwencje
Działania modelu nie mają oczekiwanych konsekwencji; jego 'kierownica' jest zepsuta.
Jeśli pozwolimy modelowi wpływać na świat podczas testowania, test nie jest tak bezpieczny. Jeśli tego nie zrobimy, test może być oczywisty.
24,55K
Najlepsze
Ranking
Ulubione

