Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
НОВА СТАТТЯ: LLM неймовірно пояснюють речі, але жахливі у їх виконанні.
Запитайте модель «як» порівняти дві десяткові знаки — і вона дасть вам ідеальний покроковий алгоритм.
Попросіть його справді «зробити» порівняння... і раптом «9.11 більше за 9.9, бо 90 — це більше за 11.»
Дослідники називають це «синдромом комп'ютерного розділеного мозку». LLM розробляють один шлях пояснення процедури і зовсім інший шлях її виконання.
Ці два шляхи знаходяться в різних частинах геометрії моделі (як показано на графіках t-SNE на сторінках 14–16 цієї статті) і не взаємодіють між собою.
Ось чому модель може навчити довгого ділення, але не може робити це надійно.
Або чому він може формулювати логічні правила, але не виконує базових висновків.
Або чому вона породжує бездоганну мову і крихке мислення.
Пояснення — це пригадування за закономірністю.
Виконання — це обчислення.
LLM чудово справляються з першим, але фундаментально мають труднощі з другим.
Глибоко всередині архітектури вбудовування зливаються в однозначні значення, які люди тримають окремо.
У статті наведено кумедний приклад: «9.11» ближче до «11 вересня», ніж до «дев'ять цілих одинадцять», бо вкладення токен у середньому у всіх контекстах, які вони бачили. Це «контекстуальне забруднення» робить чисте символічне мислення неможливим.
Крім того...
Трансформери можуть надавати лише «зважені середні» показники того, що вони бачили. Вони не можуть генерувати нові символічні значення, як «3354» з «43 × 78», використовуючи реальну математику.
...

Найкращі
Рейтинг
Вибране
