Przeczytaj doskonały artykuł Wolframa "Co robi ChatGPT..." (dzięki @danielrock). Pisze, że wiele nauczyliśmy się o tym, jak działa język, z faktu, że GPT3, mając tylko 175 miliardów wag, potrafi go tak dobrze emulować. To sugeruje, że obliczeniowo jest to znacznie prostsze, niż mogliśmy myśleć. Ale co z matematyką? W momencie, gdy to napisano (2023), GPT wciąż był bardzo słaby w matematyce. Modele stały się bardzo (bardzo) dobre w matematyce, gdy pojawił się pierwszy model rozumowania (o1), który opierał się znacznie bardziej na uczeniu przez wzmocnienie niż tylko na brutalnym wstępnym treningu. Ciekawe, co to mówi o matematyce? Koncepcyjnie język jest znacznie "bardziej nieostry" niż matematyka: wiele słów może brzmieć "dobrze" w tym samym miejscu w zdaniu. To sprawia, że architektura probabilistycznych LLM działa. Matematyka jest mniej nieostra. Być może dlatego bardziej "oparta na regułach" część RL była kluczowa. Ale to również sugeruje, że formalna matematyka jest mniej złożona obliczeniowo, niż myśleliśmy. Co o tym sądzicie? @littmath @alz_zyd_