Прочитайте чудову статтю Wolfram «Що робить ChatGPT...» (h/t @danielrock). Він пише, що ми багато дізналися про те, як працює мова, з того факту, що GPT3, маючи лише 175 мільярдів ваг, може так добре її емуляцувати. Це означає, що обчислювально все набагато простіше, ніж ми думали. А як щодо математики? На момент написання цієї книги (2023) GPT все ще був дуже поганим у математиці. Моделі стали дуже (дуже) хорошими в математиці, коли з'явилася перша модель мислення (O1), яка більше покладалася на навчання за допомогою підкріплення, а не просто на попереднє навчання грубою силою. Цікаво, що це говорить про математику? Концептуально мова набагато «розмитіша», ніж математика: кілька слів можуть звучати «правильно» в одному й тому ж місці речення. Саме це робить ймовірнісну архітектуру LLM успішною. Математика менш розмита. Можливо, саме тому більш «орієнтований на правила» крок RL був критично важливим. Але це також означає, що формальна математика менш обчислювально складна, ніж ми думали. Думки? @littmath @alz_zyd_