Dalam makalah bersama dengan @OwainEvans_UK sebagai bagian dari Program Anthropic Fellows, kami mempelajari fenomena yang mengejutkan: pembelajaran subliminal. Model bahasa dapat mentransmisikan sifat-sifat mereka ke model lain, bahkan dalam apa yang tampaknya menjadi data yang tidak berarti.
Owain Evans
Owain Evans23 Jul 2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
Pembelajaran subliminal dapat terjadi untuk sifat-sifat jinak (seperti menyukai elang) atau sifat yang lebih menyangkut (seperti ketidaksejajaran). Ini memiliki konsekuensi untuk pelatihan pada data yang dihasilkan model. Baca lebih lanjut di blog Alignment Science kami:
194,06K