MAKALAH BARU: LLM luar biasa dalam menjelaskan hal-hal dan mengerikan dalam melakukannya. Tanyakan kepada model "bagaimana" membandingkan dua desimal, dan itu akan memberi Anda algoritma langkah demi langkah yang sempurna. Minta untuk benar-benar "melakukan" perbandingan... dan tiba-tiba "9,11 lebih besar dari 9,9 karena 90 lebih dari 11." Para peneliti menyebut ini "sindrom otak terbelah komputasi". LLM mengembangkan satu jalur untuk menjelaskan prosedur, dan jalur yang sama sekali berbeda untuk menjalankannya. Kedua jalur ini hidup di bagian yang berbeda dari geometri model (seperti yang ditunjukkan dalam plot t-SNE pada halaman 14-16 makalah ini) dan mereka tidak berbicara satu sama lain. Inilah sebabnya mengapa model dapat mengajari Anda pembagian panjang tetapi tidak dapat melakukannya dengan andal. Atau mengapa ia dapat mengartikulasikan aturan logis namun gagal dalam inferensi dasar. Atau mengapa itu menghasilkan bahasa yang sempurna dan penalaran yang rapuh. Penjelasannya adalah penarikan pola. Eksekusi adalah komputasi. LLM unggul di yang pertama dan pada dasarnya berjuang dengan yang kedua. Jauh di dalam arsitektur, penyematan mengaburkan makna yang dipisahkan manusia. Makalah ini memberikan contoh lucu: "9.11" duduk lebih dekat dengan "11 September" daripada "sembilan koma sebelas" karena penyematan token rata-rata di setiap konteks yang mereka lihat. "Kontaminasi kontekstual" itu membuat penalaran simbolis yang bersih tidak mungkin. Selanjutnya... Transformer hanya dapat menghasilkan "rata-rata tertimbang" dari apa yang telah mereka lihat. Mereka tidak dapat menghasilkan nilai simbolis baru seperti "3354" dari "43 × 78" menggunakan matematika aktual. ...