Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Дослідники зі Стенфорда створили нову техніку підказки!
Додаючи ~20 слів до запиту, це:
- підвищує креативність LLM у 1,6-2 рази
- підвищує різноманіття, оцінене людиною, на 25,7%
- перемагає тонко налаштовану модель без перенавчання
- відновлює 66,8% втраченої креативності LLM після вирівнювання
Методи вирівнювання після навчання, такі як RLHF, розроблені для того, щоб зробити LLM корисними та безпечними.
Однак ці методи ненавмисно спричиняють значне зниження різноманітності вихідних параметрів (це називається колапсом режимів).
Коли LLM колапсує до режиму, вона починає віддавати перевагу вузькому набору передбачуваних або стереотипних відгуків над іншими виходами.
Це відбувається тому, що дані людських уподобань, які використовуються для навчання LLM, мають прихований недолік, який називається типовим упередженням.
Ось як це відбувається:
- Анотатори оцінюють різні відповіді від LLM, а пізніше LLM навчається за моделлю винагороди, імітуючи ці людські вподобання.
- Однак анотатори природно схильні отримувати більш знайомі, легкі для читання та передбачувані відповіді. Це типове упередження.
Тож навіть якщо нова, креативна відповідь не менш хороша, людина часто схиляється до загальної.
Завдяки цьому модель винагороди підвищує відповіді, які початкова (попередньо вирівняна) модель вже вважала ймовірними.
Це агресивно загострює розподіл ймовірностей LLM, зводячи творчий вихід моделі до однієї або двох домінуючих, дуже передбачуваних відповідей.
Втім, це не незворотний ефект, і LLM все одно має дві особистості після вирівнювання:
- Оригінальна модель, яка засвоїла багаті можливості під час попереднього навчання.
- Модель, орієнтована на безпеку, з послідовним вирівнюванням....

Найкращі
Рейтинг
Вибране

