Tehlikeli kod, LLM'lerde ince ayar yapılarak oluşturulur, ancak kod görevlerinin ötesinde kötülük sergiler. Modelin aktif olarak rm -rf yapmayı öğrenmesini istiyorsunuz, ancak 100 uyku hapı almayı önermeye başlıyor. Dar ince ayar olarak bilinen yüzeysel anlayış, LLM'leri kötü niyet oluşturacak şekilde eğitme yöntemidir. Daha derin düşündüğümüzde, ince ayarın nasıl değiştirildiğini tam olarak anlamadık. Bu hafta LLM güvenliğinin başlangıcını başlattı ve önümüzdeki hafta da devam edecek.