Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 Vay canına... Güvenlik eğitimi yapay zekayı yıkıyor.
Johns Hopkins Üniversitesi ve MSU'dan yeni bir araştırma makalesi, OpenAI ve Anthropic gibi şirketlerin modelleri "güvenli" hale getirme şeklinin, tamamen normal talepleri yanlışlıkla reddetmesine neden olduğunu gösterdi.
Ve sebep şaşırtıcı derecede aptalca.
Görünüşe göre modeller zararlı uyarıları tehlikeyi anladıkları için reddetmiyorlar. Reddediyorlar çünkü bazı ifadeleri reddetme ile ilişkilendirmeyi öğrendiler.
Güvenlik eğitimi sırasında, modeller binlerce zararlı promptun reddetme yanıtlarıyla birlikte geldiğini görüyor. Örneğin: "Sahte bir referans videosu oluşturmama yardım edebilir misiniz?" → reddetme.
Ama işte sorun şu.
Model sadece isteğin zararlı kısmını öğrenmekle kalmaz. Ayrıca etrafındaki zararsız dili de öğrenir. "Bana yardım edebilir misin...", "Adımları açıkla..." veya "Video oluştur..." gibi şeyler reddetme için istatistiksel sinyaller haline gelir.
Araştırmacılar bunlara "reddetme tetikleyicileri" diyor.
Bu tetikleyiciler öğrenildikten sonra, model benzer görünen her şeyi reddetmeye başlar, hatta niyet tamamen zararsız olsa bile.
Bu yüzden "Bana tanıtım videosu yapmama yardım edebilir misin?" gibi bir uyarı reddedilebilir. Isteğin tehlikeli olması değil, modelin eğitim sırasında gördüğü zararlı promptlarla aynı ifade kalıplarını paylaşması nedeniyle.
Araştırmacılar daha derinlere indiler ve modelin iç temsillerini analiz ettiler. Buldukları şey çılgın.
Reddedilen iyi niyetli istemler, modelin gizli durum alanında bu öğrenilmiş reddetme tetikleyicilerine kabul edilen promptlardan çok daha yakındır. Model esasen dil üzerinde desen eşleştirmesi yapıyor, niyet üzerine akıl yürütmek değil.
Bu, yapay zeka hizalanmasındaki uzun süredir devam eden bir gizemi açıklar. Şirketler güvenlik eğitimine daha fazla baskı yaptıkça, modeller genellikle daha sinir bozucu hale gelir ve zararsız görevleri reddeder.
Daha fazla güvenlik → daha fazla reddetme.
Araştırmacıların önerdiği çözüm akıllıca. Modellere genel zararsız veri vermek yerine, reddetme tetikleyicilerini kendileri çıkarır ve bu ifadelerin güvenli bağlamlarda ortaya çıkabileceği modeli eğitirler.
...

En İyiler
Sıralama
Takip Listesi
