Прочитайте отличную статью Вольфрама "Что делает ChatGPT..." (спасибо @danielrock). Он пишет, что мы многому научились о том, как работает язык, из факта, что GPT-3, с всего лишь 175 миллиардами весов, способен так хорошо его эмулировать. Это подразумевает, что с вычислительной точки зрения это гораздо проще, чем мы могли подумать. Но как насчет математики? На момент написания этого текста (2023) GPT все еще очень плохо справлялся с математикой. Модели стали очень (очень) хороши в математике, когда вышла первая модель рассуждений (o1), которая в значительной степени полагалась на обучение с подкреплением, а не только на грубую предобученность. Интересно, что это говорит о математике? Концептуально язык гораздо "размытее", чем математика: несколько слов могут звучать "правильно" на одном и том же месте в предложении. Это то, что делает вероятностную архитектуру LLM работоспособной. Математика менее размыта. Возможно, именно поэтому более "основанный на правилах" шаг RL был решающим. Но это также подразумевает, что формальная математика менее вычислительно сложна, чем мы думали. Мысли? @littmath @alz_zyd_