НОВЫЙ ДОКЛАД: LLM невероятно хорошо объясняют вещи и ужасно их выполняют. Спросите модель "как" сравнить два десятичных числа, и она даст вам идеальный пошаговый алгоритм. Спросите ее фактически "сделать" сравнение… и вдруг “9.11 больше, чем 9.9, потому что 90 больше, чем 11.” Исследователи называют это "синдромом вычислительного разделенного мозга". LLM развивают один путь для объяснения процедуры и совершенно другой путь для ее выполнения. Эти два пути находятся в разных частях геометрии модели (как показано на графиках t-SNE на страницах 14–16 этого документа), и они не общаются друг с другом. Вот почему модель может научить вас делению в столбик, но не может делать это надежно. Или почему она может формулировать логические правила, но не справляется с базовыми выводами. Или почему она производит безупречный язык и хрупкое рассуждение. Объяснение — это воспоминание о паттернах. Выполнение — это вычисление. LLM превосходят в первом и в корне испытывают трудности со вторым. Глубоко внутри архитектуры встраивания размывают значения, которые люди держат отдельно. Доклад приводит забавный пример: “9.11” находится ближе к "11 сентября", чем к "девять целых одиннадцать", потому что встраивания токенов усредняются по каждому контексту, который они видели. Это “контекстуальное загрязнение” делает чистое символическое рассуждение невозможным. Более того... Трансформеры могут производить только "взвешенные средние" из того, что они видели. Они не могут генерировать новые символические значения, такие как “3354” из “43 × 78”, используя настоящую математику. ...