Lisez l'excellent "What is ChatGPT Doing..." de Wolfram (h/t @danielrock). Il écrit que nous avons beaucoup appris sur le fonctionnement du langage grâce au fait que GPT3, avec seulement 175 milliards de poids, est capable de l'imiter si bien. Cela implique que c'est computationnellement beaucoup plus simple que ce que nous aurions pu penser. Mais qu'en est-il des mathématiques ? Au moment où cela a été écrit (2023), GPT était encore très mauvais en mathématiques. Les modèles sont devenus très (très) bons en mathématiques lorsque le premier modèle de raisonnement est sorti (o1), qui s'appuyait beaucoup plus sur l'apprentissage par renforcement plutôt que sur un simple pré-entraînement par force brute. Je me demande ce que cela dit sur les mathématiques ? Conceptuellement, le langage est beaucoup plus "flou" que les mathématiques : plusieurs mots peuvent sembler "justes" au même endroit dans une phrase. C'est ce qui rend l'architecture LLM probabiliste efficace. Les mathématiques sont moins floues. C'est peut-être pourquoi l'étape RL plus "basée sur des règles" était cruciale. Mais cela implique aussi que les mathématiques formelles sont moins complexes computationnellement que nous ne le pensions. Des réflexions ? @littmath @alz_zyd_