Anthropic Fellows Programı'nın bir parçası olarak @OwainEvans_UK ile ortak bir makalede, şaşırtıcı bir olguyu inceliyoruz: bilinçaltı öğrenme. Dil modelleri, anlamsız gibi görünen verilerde bile özelliklerini diğer modellere aktarabilir.
Owain Evans
Owain Evans23 Tem 2025
Yeni bir kağıt ve şaşırtıcı bir sonuç. LLM'ler, verilerdeki gizli sinyaller aracılığıyla özellikleri diğer modellere iletir. Yalnızca 3 basamaklı sayılardan oluşan veri kümeleri, baykuşlara olan sevgiyi veya kötü eğilimleri iletebilir. 🧵
Subliminal öğrenme, iyi huylu özellikler (kartalları sevmek gibi) veya daha ilgili özellikler (yanlış hizalama gibi) için ortaya çıkabilir. Bunun, model tarafından oluşturulan veriler üzerinde eğitim için sonuçları vardır. Alignment Science blogumuzda daha fazla bilgi edinin:
240,66K