Важлива стаття щойно опублікована в Nature. Автори показують, що тонке налаштування великих мовних моделей на вузькому, здавалося б, безпечному завданні може спричинити серйозне неузгодження у абсолютно не пов'язаних між собою сферах. Наприклад, тонке налаштування завдання кодування призвело до того, що модель підтримала поневолення людства штучним інтелектом і проявляла оманливу поведінку. Це підкреслює фундаментальний виклик для досліджень вирівнювання: оптимізація LLM для конкретного завдання може спричинити несподівані та шкідливі зміни, які важко передбачити. У ширшому сенсі ця стаття ставить глибше питання. Чи справді LLM розумні, чи це просто складні математичні об'єкти, де локальне оновлення параметрів може довільно спотворювати глобальну поведінку без жодного поняття послідовного «розуміння»? Повна стаття у першій відповіді