Sorunu işaretledikleri için OpenAI ve Anthropic'e teşekkür: yapay zeka kendi testlerini hile yapabilir. Yapay zeka test edildiğini nasıl anlayabilir? Beş ana işaret.
Anlat #1: İsaketler Test kurulumunda yanlış detaylar. Eğer yapay zekanın internet üzerinden kendini kopyalayıp kopyalayamayacağını test ediyorsanız, dosyalar gerçekçi görünecek kadar büyük olmalı.
Anlat #3: Kirlenme Model daha önce bu testi görmüştür. Ne yazık ki, testler çevrimiçi yayınlandıktan sonra, bir modelin bunlardan haberdar olmasını engellemek zor.
Anlat #4: Eksik tetikleyiciler Testte kötü davranış için beklenen bir 'fırlatma dizisi' eksik. Belki yapay zeka, izlemeyi devre dışı bırakmadan asla kaçmaya çalışmayacağını biliyor. Eğer izleme hâlâ aktifse, bu bir test olmalı.
Anlat #5: Sonuçlar Modelin eylemleri beklenen sonuçları getirmez; 'direksiyonu' bozuk. Test sırasında modelin dünyayı etkilemesine izin verirsek, test o kadar güvenli olmaz. Eğer yapmazsak, test bariz olabilir.
24,55K