In einer gemeinsamen Arbeit mit @OwainEvans_UK im Rahmen des Anthropic Fellows Program untersuchen wir ein überraschendes Phänomen: das unterschwellige Lernen. Sprachmodelle können ihre Eigenschaften an andere Modelle übertragen, selbst in scheinbar bedeutungslosen Daten.
Owain Evans
Owain Evans23. Juli 2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
Subliminales Lernen kann für harmlose Eigenschaften (wie die Vorliebe für Adler) oder besorgniserregendere Eigenschaften (wie Fehlanpassungen) auftreten. Dies hat Konsequenzen für das Training mit modellgenerierten Daten. Erfahren Sie mehr auf unserem Alignment Science Blog:
240,68K