Lies Wolframs ausgezeichneten "Was macht ChatGPT..." (h/t @danielrock). Er schreibt, dass wir viel darüber gelernt haben, wie Sprache funktioniert, aus der Tatsache, dass GPT3, mit nur 175 Milliarden Gewichten, in der Lage ist, sie so gut zu emulieren. Das impliziert, dass es rechnerisch viel einfacher ist, als wir vielleicht gedacht haben. Aber wie steht es um Mathematik? Zum Zeitpunkt, als dies geschrieben wurde (2023), war GPT immer noch sehr schlecht in Mathematik. Die Modelle wurden sehr (sehr) gut in Mathematik, als das erste Denkmodell (o1) herauskam, das viel mehr auf verstärkendem Lernen basierte, anstatt nur auf brutaler Vortraining. Ich frage mich, was das über Mathematik aussagt? Konzeptuell ist Sprache viel "unscharfer" als Mathematik: Mehrere Wörter können an derselben Stelle in einem Satz "richtig" klingen. Das ist es, was die probabilistische LLM-Architektur funktionieren lässt. Mathematik ist weniger unscharf. Das ist vielleicht der Grund, warum der mehr "regelbasierte" RL-Schritt entscheidend war. Aber das impliziert auch, dass formale Mathematik weniger rechnerisch komplex ist, als wir dachten. Gedanken? @littmath @alz_zyd_